일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 태그를 입력해 주세요.
- Git
- 야구
- 블로그
- Tizen
- 국정원
- 단통법
- ubuntu 12.04
- ubuntu
- 문파문파
- NC 다이노스
- NC다이노스
- 애플
- mysql
- 안드로이드
- arm
- 김경문
- 타이젠
- 인공지능
- 데이터베이스
- 리뷰
- 조세피난처
- python
- 우분투
- 프로야구
- 문파문파 공략
- Linux
- 손민한
- 뉴스타파
- 해외직구
- Today
- Total
목록Python (9)
꿈꾸는 사람.
Pandas란 무엇인가?Pandas는 Python에서 데이터 분석과 조작을 위한 고수준의 데이터 구조와 도구를 제공하는 오픈소스 라이브러리이다.Pandas는 특히 구조화된 데이터(예: 테이블 형태의 데이터)를 처리하는 데 최적화되어 있어 데이터 분석, 정리, 변환 및 시각화를 효율적으로 수행할 수 있다.Pandas는 NumPy를 기반으로 하며, 데이터프레임(DataFrame)과 시리즈(Series)라는 두 가지 주요 데이터 구조를 제공한다. 주요 개념Series:일차원 배열과 유사하며, 데이터와 데이터의 인덱스를 함께 저장한다.Python의 리스트나 NumPy 배열에 인덱스를 추가한 것과 비슷하다.import pandas as pds = pd.Series([10, 20, 30], index=['a', '..
pandas.DataFrame.mode() 사용하기 mode 함수는 주어진 데이터셋의 행/열의 가장 자주 나타나는 값인 최빈값을 구하는 함수이다. 최빈값이 여러개일 경우 모두 표시한다. 이 때, 최빈값 이외의 값은 NaN을 출력한다. 사용 예::titanic의 학습 데이터셋에 mode() 사용하기 데이터셋은 kaggle에서 다음과 같이 받으면 된다. info() 함수와 describe()함수를 이용하여 확인한 타이타닉 학습 데이터의 기본 정보는 다음과 같다. 먼저 Cabin 열의 고유한 항목 수를 value_counts() 함수로 확인한다. print(train['Cabin'].value_counts()) output>>> B96 B98 4 G6 4 C23 C25 C27 4 C22 C26 3 최빈값을 찾..
개요 빅데이터나 데이터 사이언스가 할 일의 가장 큰 부분은 데이터 전처리이다. 데이터 전처리는 데이터 정제와 데이터 변환으로 구성된다. 이번 포스팅은 이전 포스팅에서 쓴 데이터를 수집을 통해 읽은 데이터를 변환하는 방법을 사례를 통해 구현해 본다. 1. 데이터 수집 이번 포스팅은 Kaggle에서 타이타닉 데이터를 다루지는 않는다. 한국 프로야구의 팀 순위 데이터를 엑셀 파일로 저장한다. 순위 팀명 경기 승 패 무 승율 게임차 최근10경기 연속 홈 원정 1 SSG 86 57 26 3 0.687 0 9승0무1패 6승 33-0-10 24-3-16 2 키움 87 54 32 1 0.628 4.5 6승0무4패 2패 25-1-18 29-0-14 3 LG 84 52 31 1 0.627 5 8승0무2패 1승 23-0-2..
데이터 사이언스의 시작은 데이터에 접근하는 것이다. 그래서 파이썬의 pandas 패키지로 표 형식 데이터를 읽고 쓰는 방법을 알아본다. pandas 패키지가 지원하는 몇 가지 형식과 액세스 함수를 다음 표에 표시한다. 데이터 형식 파일 형식 읽기 함수 쓰기 함수 text csv read_csv to_csv JSON read_json to_json HTML read_html to_html XML read_xml to_xml binary Excel read_excel to_excel SQL SQL read_sql to_sql 먼저 CSV 파일을 읽고 쓰는 함수로 read_csv(), write_csv()가 있다. read_csv() 파일이나 URL 등에서 데이터를 읽어온다. 아래 코드는 github에 있는 ..
배경 회사의 일과 개인의 경력이 일치하지 않을 때가 있다. 2021년까지 인공지능, 데이터 사이언스 업무를 하였으나 2022년부터 다시 웹 개발을 하게 되었다. 어렵게 익힌 파이썬 기술은 점점 잊혀지고 백엔드 기술인 SQL은 이제 눈에 들어오는 정도이다. 두 기술 모두 중요하므로 함께 사용하기로 결정하니 마음이 편안해진다. 개요 먼저, 파이썬에서 SQL을 사용하기 위해 필수적으로 쓸 패키지는 SQLite이다. SQLite는 서버 프로세스가 필요 없고 비표준 SQL 변형으로 데이터베이스에 접근할 수 있는 경량 디스크 기반 데이터베이스를 제공하는 C 라이브러리이다. sql ite3 모듈은 DB-API 2.0 사양과 호환 되는 SQL 인터페이스 를 제공한다. 사용법 1. 데이터베이스 객체 생성 먼저 sqlit..
인공지능을 수행한 여러 사업 중 실제 만족스러운 결과를 낸 것은 AI-OCR이 유일하다. 챗봇에 적용된 자연어 처리 모델은 심심이 보다 못하고 IoT에 적용된 시계열 모델은 실제 데이터는 획득하기도 전에 프로젝트가 종료되었다. 코인투자의 광풍이 꺼지는 지금 다시 주식에 관심을 돌려 주식투자에 인공지능 모델을 적용해 보려 한다. 그전에 왼편 그림에 소개한 책에서 아이디어를 빌려보자. 책에서 소개한 개발환경과 달리 본 포스팅에서 구축한 개발환경은 아래와 같다. 구축 환경의 차이는 tensorflow의 개발환경(pip, 도커도 구식이고 쿠버네티스를 권장하고 있다.)이 더 익숙하기 때문이다. 파이썬 설치 64비트 3.x 버전 (3.9.5가 최신임) 파이썬 가상환경 설치 python -m venv --system..
인공지능 모델을 개발하고 웹으로 간단히 테스트할 목적으로 flask를 사용하려 한다. powershell에서 가상 환경을 만들고 flask를 설치하려고 한다. 가상 환경 설치 C:> python3 -m venv venv Python3 사용할 때 권장하는 명령 C:> pip install virtualenv Python2 사용할 때 권장하는 명령 가상 환경 활성화 활성화 명령 > venv\Scripts\activate 비활성화 명령 (venv) > deactivate 실제 활성화 명령을 실행했을 때 아래 문제 발생 활성화 명령이 실패한 원인 가상화 실행 명령은 스크립트를 실행해야 하는데 PowerShell이 이를 제한하기 때문이다. PowerShell 실행 정책 PowerShell의 실행 정책은 Power..
배경 4차 산업 혁명의 요소 기술 중 사물인터넷(IoT)이 데이터를 생성하고, 빅 데이터(Big data)rk 이렇게 생성된 방대한 데이터를 처리하며, 인공지능이 인간을 대신하여 스스로 최적의 해법을 제시한다. 또한, 클라우드 컴튜팅이 데이터 저장, 처리 등에 가상화된 컴퓨팅 리소스를 즉시 제공(on-demand)하기 위해 사용된다. 이런 요소 기술에서 공통이 테이터이며 비 기술적인 관계자들은 종종 데이터를 더 쉽게 이해하기 위해 맞춤형이며 대화형 시각화를 위해 동적 대시보드를 원한다. 데이터를 다루는 대시보드는 다음 네 가지 기능은 최소한으로 제공하여야 한다. 분석: Numpy, Panda, SciPy와 같은 핵심 패키지를 통한 데이터 분석, 조작과 요약한다. 시각화: 다양한 그래프 라이브러리를 사용하..
개요 제안서를 쓰거나 설계를 할 때 아키텍처가 필수 요소이다. 전체 시스템 개요를 설명하고 시스템 아키텍처를 작성한다. 지금까지는 시스템 아키텍처는 마이크로 소프트의 비지오와 같은 디자인 도구로 그리거나 파워포인트를 사용했다. 하지만 다이어그램 패키지를 사용하면 파이썬 코드에서 시스템 아키텍처를 그릴 수 있다. 다이어그램 패키지는 AWS, Azure, GCP 등 주요 클라우드와 온프레미스 노드 및 주요 프로그래밍 프레임워크도 지원한다. 설치하기 1. Python 3.6 이상 설치 2. graphviz 설치 3. diagram 패키지 설치 # using pip (pip3) $ pip install diagrams # using pipenv $ pipenv install diagrams # using poe..