일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- arm
- 타이젠
- ubuntu
- 단통법
- 프로야구
- 문파문파
- 뉴스타파
- 해외직구
- 태그를 입력해 주세요.
- NC 다이노스
- mysql
- 김경문
- 우분투
- 국정원
- 문파문파 공략
- 손민한
- 리뷰
- 디자인 패턴
- 조세피난처
- 야구
- 블로그
- 애플
- ubuntu 12.04
- 안드로이드
- 데이터베이스
- NC다이노스
- 인공지능
- Tizen
- Linux
- 정보시스템감리사
- Today
- Total
목록분류 전체보기 (604)
꿈꾸는 사람.
개요 빅데이터나 데이터 사이언스가 할 일의 가장 큰 부분은 데이터 전처리이다. 데이터 전처리는 데이터 정제와 데이터 변환으로 구성된다. 이번 포스팅은 이전 포스팅에서 쓴 데이터를 수집을 통해 읽은 데이터를 변환하는 방법을 사례를 통해 구현해 본다. 1. 데이터 수집 이번 포스팅은 Kaggle에서 타이타닉 데이터를 다루지는 않는다. 한국 프로야구의 팀 순위 데이터를 엑셀 파일로 저장한다. 순위 팀명 경기 승 패 무 승율 게임차 최근10경기 연속 홈 원정 1 SSG 86 57 26 3 0.687 0 9승0무1패 6승 33-0-10 24-3-16 2 키움 87 54 32 1 0.628 4.5 6승0무4패 2패 25-1-18 29-0-14 3 LG 84 52 31 1 0.627 5 8승0무2패 1승 23-0-2..
데이터 사이언스의 시작은 데이터에 접근하는 것이다. 그래서 파이썬의 pandas 패키지로 표 형식 데이터를 읽고 쓰는 방법을 알아본다. pandas 패키지가 지원하는 몇 가지 형식과 액세스 함수를 다음 표에 표시한다. 데이터 형식 파일 형식 읽기 함수 쓰기 함수 text csv read_csv to_csv JSON read_json to_json HTML read_html to_html XML read_xml to_xml binary Excel read_excel to_excel SQL SQL read_sql to_sql 먼저 CSV 파일을 읽고 쓰는 함수로 read_csv(), write_csv()가 있다. read_csv() 파일이나 URL 등에서 데이터를 읽어온다. 아래 코드는 github에 있는 ..
배경 회사의 일과 개인의 경력이 일치하지 않을 때가 있다. 2021년까지 인공지능, 데이터 사이언스 업무를 하였으나 2022년부터 다시 웹 개발을 하게 되었다. 어렵게 익힌 파이썬 기술은 점점 잊혀지고 백엔드 기술인 SQL은 이제 눈에 들어오는 정도이다. 두 기술 모두 중요하므로 함께 사용하기로 결정하니 마음이 편안해진다. 개요 먼저, 파이썬에서 SQL을 사용하기 위해 필수적으로 쓸 패키지는 SQLite이다. SQLite는 서버 프로세스가 필요 없고 비표준 SQL 변형으로 데이터베이스에 접근할 수 있는 경량 디스크 기반 데이터베이스를 제공하는 C 라이브러리이다. sql ite3 모듈은 DB-API 2.0 사양과 호환 되는 SQL 인터페이스 를 제공한다. 사용법 1. 데이터베이스 객체 생성 먼저 sqlit..
GitHub에서 소스를 받을 때 보통 'git clone'명령을 써서 저장소의 모든 파일을 다운로드한다. 때로는 전체 소스보다 필요한 파일만 받고 싶은 경우가 있다. 하지만 Git으로 저장소의 일부만 받는 방법은 쉽지 않다. 이번 글은 GitHub에서 필요한 하나의 파일만 받을 수 있는 쉬운 방법을 제시한다. 이 방법의 요약은 아래와 같다. 1. GitHub 저장소를 선택 2. 다운로드할 파일로 이동 후 내용 보기 3. GitHub 화면에서 [Raw] 버튼을 마우스 오른쪽 버튼으로 클릭 4. '다른 이름으로 링크 저장' 선택 다른 방법으로 4.' 명령 창에서 curl 명령 사용 상세한 절차 1. GitHub 저장소를 선택 2. 다운로드할 파일로 이동 후 GitHub 화면에서 내용 보기 3. [Raw] 버..
AWS Cloud9 개요 AWS Cloud9은 클라우드 기반 통합 개발 환경(IDE)이다. 즉 로컬 IDE에서 할 수 있는 코딩, 빌드, 실행, 테스트 및 디버깅 등의 일들을 클라우드에서 수행하는 것이다. 웹 브라우저를 통해 AWS Cloud9 IDE에 접근한다. AWS Cloud9 구성 및 작동 방식 Cloud9 구성은 개발자의 로컬 컴퓨터, AWS의 EC2 기반의 IDE환경 및 개발된 소스를 저장할 원격 저장소로 이루어진다. Cloud9은 웹 브라우저에서 실행되고 AWS Cloud9 환경에 연결된다. 서버 개발 환경은 클라우드(EC2 환경)나 자체 서버를 사용(SSH 환경)할 수 있고 원격 저장소도 AWS가 제공하는 CodeCommit이나 널리 사용되는 github 등을 구성할 수 있다. (SSH 환..
정의 AWS CodeCommit는 분산 버전 관리 도구인 GIT 저장소를 호스팅하는 AWS의 버전 관리 서비스로 클라우드에서 파일의 변경사항을 추적하고 다중 사용자의 작업을 관리한다. 요금 현재 AWS CodeCommit용 AWS 프리 티어는 신규 및 기존 모두 무기한으로 적용되며, 기본 12개월의 프리 티어 기간이 종료되어도 만료되지 않는다. 세부 요금 내역은 AWS를 참고하라. 개요 CodeCommit는 사설 Git 저장소를 호스팅하며 클라우드의 장점인 안전성을 보장하고 저장소를 쉽게 확장할 수 있다. 또한 CodeCommit는 여러 AWS 서비스와 통합되어 있어 AWS lambda 등의 개발에 유리하며, 특히 로컬 개발 후 클라우드에서 테스트할 때 필수적이다. 사용자는 개발 시스템에서 로컬 저장소를..
Node.js®는 Chrome V8 JavaScript 엔진으로 빌드된 JavaScript 런타임으로 웹 앱과 같은 네트워킹 응용(특히 서버)을 개발하는데 유용한 소프트웨어 플랫폼이다. 이 글은 node.js를 설치하고 간단한 웹 서버 객체를 만들어 동작을 브라우저에서 확인하는 내용이다. Node.js의 설치 curl -fsSL https://deb.nodesource.com/setup_14.x | sudo -E bash - sudo apt-get install -y nodejs Node.js 설치한 버전 확인 node -v npm -v Node.js 콘솔(REPL) 대부분의 플랫폼이나 언어와 같이 Node.js는 read-eval-print loop(REPL)란 가상 환경을 제공한다. 이 가상 환경에서..
Apache Spark 개요 Apache Spark는 대용량 데이터 처리를 위한 통합 분석 엔진으로 배치와 스트리밍 데이터를 고성능으로 처리하고 자바, 스칼라, 파이썬, R 등의 다양한 프로그래밍 언어를 지원한다. Apache Spark의 프로그래밍 모델은 클러스터에서 분산 작동하는 RDD(Resilient Distributed Datasets)를 기반으로 한다. 최근 데이터 사이언티스트들이 가장 선호하는 도구들 중의 하나이다. 설치 개요 0. update & upgrade sudo apt update sudo apt-get upgrade 1. Java, scala, git 설치 sudo apt install default-jdk scala git 2. Apache Spark 다운로드 wget https..
이전 글에 "확률과 베이지안 확률"을 알아보았다. 이번 글은 통계학에 대한 것이다. 통계학(統計學, Statistics) 통계학은 데이터를 관찰, 정리 및 분석하는 학문으로 자연과학 뿐만 아니라 사회과학에서도 중요한 학문이다. 통계학의 종류 기술 통계학(記述 統計學, descriptive statistics) - 모집단의 데이터의 특징을 파악 및 요약하는 방법 - 측정이나 실험으로 수집된 데이터에서 객관적 사실을 나타내는 통계적 방법이다. 추측 통계학 (inferential statistics) - 모집단의 특징을 관측 데이터인 표본에서 파악하는 통계학 - 일반적인 통계학인 빈도주의 통계학과 지식, 경험 또는 새로운 데이터를 통해 분석 및 예측하는 베이즈 통계학 등이 있다. 기술 통계학(記述 統計學, d..
한국에서 온프레미스(on-premise)에서 클라우드 컴퓨팅으로 전환이 이제 본격적으로 이루어지고 있다. 이미 IT 선진국에서는 도입을 넘어 본격 확산되고 있는 상황에 비추어 상당히 늦었다고 본다. 클라우드 컴퓨팅 도입에 앞서 정의와 특성을 알아보고 도입 절차를 알아보자. 클라우드 컴퓨팅의 정의 하드웨어 , 소프트웨어 , 데이터 등 IT 자원을 네트워크를 통해 표준화된 서비스 형태로 제공하는 컴퓨팅 모델로 사용자는 언제 , 어디서나 , 어떤 단말을 통해서도 원하는 만큼 IT 자원을 이용하고 사용한 만큼 비용을 지불하는 컴퓨팅 모델 클라우드 컴퓨팅의 특징 1. 동적 확장 가능한 인프라스트럭처 사용자들은 필요에 따라 컴퓨팅 환경을 구축하고 원하는 만큼 컴퓨팅 리소스를 활용할 수 있다. 운영 중 컴퓨팅 자원이..