'데이터 전처리' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록데이터 전처리 (2)

꿈꾸는 사람.

데이터 전처리에 최빈값 (mode) 적용하기

pandas.DataFrame.mode() 사용하기 mode 함수는 주어진 데이터셋의 행/열의 가장 자주 나타나는 값인 최빈값을 구하는 함수이다. 최빈값이 여러개일 경우 모두 표시한다. 이 때, 최빈값 이외의 값은 NaN을 출력한다. 사용 예::titanic의 학습 데이터셋에 mode() 사용하기 데이터셋은 kaggle에서 다음과 같이 받으면 된다. info() 함수와 describe()함수를 이용하여 확인한 타이타닉 학습 데이터의 기본 정보는 다음과 같다. 먼저 Cabin 열의 고유한 항목 수를 value_counts() 함수로 확인한다. print(train['Cabin'].value_counts()) output>>> B96 B98 4 G6 4 C23 C25 C27 4 C22 C26 3 최빈값을 찾..

Python 2022. 11. 21. 18:04

Python::프로야구 팀순위 분석

개요 빅데이터나 데이터 사이언스가 할 일의 가장 큰 부분은 데이터 전처리이다. 데이터 전처리는 데이터 정제와 데이터 변환으로 구성된다. 이번 포스팅은 이전 포스팅에서 쓴 데이터를 수집을 통해 읽은 데이터를 변환하는 방법을 사례를 통해 구현해 본다. 1. 데이터 수집 이번 포스팅은 Kaggle에서 타이타닉 데이터를 다루지는 않는다. 한국 프로야구의 팀 순위 데이터를 엑셀 파일로 저장한다. 순위 팀명 경기 승 패 무 승율 게임차 최근10경기 연속 홈 원정 1 SSG 86 57 26 3 0.687 0 9승0무1패 6승 33-0-10 24-3-16 2 키움 87 54 32 1 0.628 4.5 6승0무4패 2패 25-1-18 29-0-14 3 LG 84 52 31 1 0.627 5 8승0무2패 1승 23-0-2..

Python 2022. 7. 19. 23:50

Prev 1 Next

목록데이터 전처리 (2)

꿈꾸는 사람.

티스토리툴바