일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 프로야구
- ubuntu
- 국정원
- 조세피난처
- NC 다이노스
- 문파문파
- 인공지능
- 해외직구
- 안드로이드
- 단통법
- 데이터베이스
- 애플
- 손민한
- 문파문파 공략
- 뉴스타파
- 야구
- arm
- Tizen
- 디자인 패턴
- 김경문
- 정보시스템감리사
- 우분투
- Linux
- NC다이노스
- 타이젠
- 리뷰
- 태그를 입력해 주세요.
- ubuntu 12.04
- 블로그
- mysql
Archives
- Today
- Total
꿈꾸는 사람.
데이터 전처리에 최빈값 (mode) 적용하기 본문
반응형
pandas.DataFrame.mode() 사용하기
mode 함수는 주어진 데이터셋의 행/열의 가장 자주 나타나는 값인 최빈값을 구하는 함수이다.
최빈값이 여러개일 경우 모두 표시한다.
이 때, 최빈값 이외의 값은 NaN을 출력한다.
사용 예::titanic의 학습 데이터셋에 mode() 사용하기
데이터셋은 kaggle에서 다음과 같이 받으면 된다.
info() 함수와 describe()함수를 이용하여 확인한 타이타닉 학습 데이터의 기본 정보는 다음과 같다.
먼저 Cabin 열의 고유한 항목 수를 value_counts() 함수로 확인한다.
print(train['Cabin'].value_counts())
output>>>
B96 B98 4
G6 4
C23 C25 C27 4
C22 C26 3
최빈값을 찾아주는 mode()함수를 Cabin 열에 적용한 결과를 보자.
print(train['Cabin'].mode())
output>
0 B96 B98
1 C23 C25 C27
2 G6
value_counts() 함수와 동등한 결과를 출력한다.
단, 정렬 순서는 차이가 있다.
PassengerId 열과 Name 열을 뺀 데이터 셋에 mode()함수를 적용한 결과에서 최빈값 이외는 NaN으로 표시된다.
X_train = train.drop(['PassengerId', 'Name'], axis=1)
print(X_train.mode())
output>
Survived Pclass Sex Age SibSp Parch Ticket Fare Cabin \
0 0.0 3.0 male 24.0 0.0 0.0 1601 8.05 B96 B98
1 NaN NaN NaN NaN NaN NaN 347082 NaN C23 C25 C27
2 NaN NaN NaN NaN NaN NaN CA. 2343 NaN G6
Embarked
0 S
1 NaN
2 NaN
Cabin열은 결측치가 많으므로 mode()함수로 결측치를 최빈값으로 채울 수 있다.
반응형
'Python' 카테고리의 다른 글
Python::프로야구 팀순위 분석 (2) | 2022.07.19 |
---|---|
pandas로 표 형식 데이터 읽기 (0) | 2022.07.10 |
Python에서 SQL 사용 (1) (0) | 2022.05.05 |
파이썬과 리액트 사용을 위한 개발환경 설정 (0) | 2021.05.30 |
윈도우의 powershell에서 가상환경이 활성화 안되는 이유 (4) | 2021.05.17 |
Comments