일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 조세피난처
- 리뷰
- 국정원
- Tizen
- python
- Git
- 우분투
- 데이터베이스
- 인공지능
- NC 다이노스
- 해외직구
- 손민한
- ubuntu 12.04
- ubuntu
- 프로야구
- 문파문파 공략
- 단통법
- arm
- Linux
- 애플
- 블로그
- 태그를 입력해 주세요.
- mysql
- 문파문파
- 김경문
- 야구
- 타이젠
- 뉴스타파
- NC다이노스
- 안드로이드
- Today
- Total
목록pandas (3)
꿈꾸는 사람.
Pandas란 무엇인가?Pandas는 Python에서 데이터 분석과 조작을 위한 고수준의 데이터 구조와 도구를 제공하는 오픈소스 라이브러리이다.Pandas는 특히 구조화된 데이터(예: 테이블 형태의 데이터)를 처리하는 데 최적화되어 있어 데이터 분석, 정리, 변환 및 시각화를 효율적으로 수행할 수 있다.Pandas는 NumPy를 기반으로 하며, 데이터프레임(DataFrame)과 시리즈(Series)라는 두 가지 주요 데이터 구조를 제공한다. 주요 개념Series:일차원 배열과 유사하며, 데이터와 데이터의 인덱스를 함께 저장한다.Python의 리스트나 NumPy 배열에 인덱스를 추가한 것과 비슷하다.import pandas as pds = pd.Series([10, 20, 30], index=['a', '..
pandas.DataFrame.mode() 사용하기 mode 함수는 주어진 데이터셋의 행/열의 가장 자주 나타나는 값인 최빈값을 구하는 함수이다. 최빈값이 여러개일 경우 모두 표시한다. 이 때, 최빈값 이외의 값은 NaN을 출력한다. 사용 예::titanic의 학습 데이터셋에 mode() 사용하기 데이터셋은 kaggle에서 다음과 같이 받으면 된다. info() 함수와 describe()함수를 이용하여 확인한 타이타닉 학습 데이터의 기본 정보는 다음과 같다. 먼저 Cabin 열의 고유한 항목 수를 value_counts() 함수로 확인한다. print(train['Cabin'].value_counts()) output>>> B96 B98 4 G6 4 C23 C25 C27 4 C22 C26 3 최빈값을 찾..
데이터 사이언스의 시작은 데이터에 접근하는 것이다. 그래서 파이썬의 pandas 패키지로 표 형식 데이터를 읽고 쓰는 방법을 알아본다. pandas 패키지가 지원하는 몇 가지 형식과 액세스 함수를 다음 표에 표시한다. 데이터 형식 파일 형식 읽기 함수 쓰기 함수 text csv read_csv to_csv JSON read_json to_json HTML read_html to_html XML read_xml to_xml binary Excel read_excel to_excel SQL SQL read_sql to_sql 먼저 CSV 파일을 읽고 쓰는 함수로 read_csv(), write_csv()가 있다. read_csv() 파일이나 URL 등에서 데이터를 읽어온다. 아래 코드는 github에 있는 ..