'Python' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Python (11)

꿈꾸는 사람.

Python으로 테이블의 열을 가져오기

개요모든 테이블은 가로 행과 세로 열로 구성되며, 각 열의 첫 번째 값으로 해당 열 이름이 명시적으로 쓰여진 공통된 구조가 많다.이런 테이블을 전문적으로 다루는 패키지가 판다스(Pandas)이다. 판다스는 1차원의 Series와 2차원인 DataFrame의 자료 구조를 가진다.아래 그림은 서울 공유자전기 따릉이에 대한 사용 정보를 가진 데이터셋의 일부이다. 하나의 개별 열을 가져오는 방법은 아래와 같다. 여러 열을 동시에 선택하는 방법을 개별 열을 가져오는 것과 같이 하면 오류가 나며 리스트로 가져와야 한다. 왜 df['대여시간', '사용시간'] 는 오류가 나고 df[['대여시간', '사용시간']] 는 동작하는가? 구문 내부에서 전달되는 keyDataFrame.__getitem__(key) 가 기대하는..

Python 2025. 7. 5. 21:42

pandas의 Groupby() 알아보기

1. groupby 정의와 개요pandas.DataFrame.groupby() (또는 Series.groupby())는 Split‑Apply‑Combine 패턴을 구현한 핵심 메서드이다.Split : 하나 이상의 “키”(열 값, 인덱스 레벨, 범위, 함수 등)에 따라 데이터를 논리적으로 그룹으로 나눈다.Apply : 각 그룹에 대해 집계(aggregation), 변환(transformation), 필터링(filtering) 같은 연산을 독립적으로 수행한다.Combine : 처리를 마친 결과를 단일 Series 또는 DataFrame으로 재구성(combine)하여 반환한다.이 과정 덕분에 반복문을 작성하지 않고도 대량 데이터에 대한 조건별 연산을 간결·고속으로 수행할 수 있다.2. 주요 기능 3가지와 코드..

Python 2025. 6. 28. 16:47

python 패키지 - pandas 개요

Pandas란 무엇인가?Pandas는 Python에서 데이터 분석과 조작을 위한 고수준의 데이터 구조와 도구를 제공하는 오픈소스 라이브러리이다.Pandas는 특히 구조화된 데이터(예: 테이블 형태의 데이터)를 처리하는 데 최적화되어 있어 데이터 분석, 정리, 변환 및 시각화를 효율적으로 수행할 수 있다.Pandas는 NumPy를 기반으로 하며, 데이터프레임(DataFrame)과 시리즈(Series)라는 두 가지 주요 데이터 구조를 제공한다. 주요 개념Series:일차원 배열과 유사하며, 데이터와 데이터의 인덱스를 함께 저장한다.Python의 리스트나 NumPy 배열에 인덱스를 추가한 것과 비슷하다.import pandas as pds = pd.Series([10, 20, 30], index=['a', '..

Python 2024. 11. 23. 13:48

데이터 전처리에 최빈값 (mode) 적용하기

pandas.DataFrame.mode() 사용하기 mode 함수는 주어진 데이터셋의 행/열의 가장 자주 나타나는 값인 최빈값을 구하는 함수이다. 최빈값이 여러개일 경우 모두 표시한다. 이 때, 최빈값 이외의 값은 NaN을 출력한다. 사용 예::titanic의 학습 데이터셋에 mode() 사용하기 데이터셋은 kaggle에서 다음과 같이 받으면 된다. info() 함수와 describe()함수를 이용하여 확인한 타이타닉 학습 데이터의 기본 정보는 다음과 같다. 먼저 Cabin 열의 고유한 항목 수를 value_counts() 함수로 확인한다. print(train['Cabin'].value_counts()) output>>> B96 B98 4 G6 4 C23 C25 C27 4 C22 C26 3 최빈값을 찾..

Python 2022. 11. 21. 18:04

Python::프로야구 팀순위 분석

개요 빅데이터나 데이터 사이언스가 할 일의 가장 큰 부분은 데이터 전처리이다. 데이터 전처리는 데이터 정제와 데이터 변환으로 구성된다. 이번 포스팅은 이전 포스팅에서 쓴 데이터를 수집을 통해 읽은 데이터를 변환하는 방법을 사례를 통해 구현해 본다. 1. 데이터 수집 이번 포스팅은 Kaggle에서 타이타닉 데이터를 다루지는 않는다. 한국 프로야구의 팀 순위 데이터를 엑셀 파일로 저장한다. 순위 팀명 경기 승 패 무 승율 게임차 최근10경기 연속 홈 원정 1 SSG 86 57 26 3 0.687 0 9승0무1패 6승 33-0-10 24-3-16 2 키움 87 54 32 1 0.628 4.5 6승0무4패 2패 25-1-18 29-0-14 3 LG 84 52 31 1 0.627 5 8승0무2패 1승 23-0-2..

Python 2022. 7. 19. 23:50

pandas로 표 형식 데이터 읽기

데이터 사이언스의 시작은 데이터에 접근하는 것이다. 그래서 파이썬의 pandas 패키지로 표 형식 데이터를 읽고 쓰는 방법을 알아본다. pandas 패키지가 지원하는 몇 가지 형식과 액세스 함수를 다음 표에 표시한다. 데이터 형식 파일 형식 읽기 함수 쓰기 함수 text csv read_csv to_csv JSON read_json to_json HTML read_html to_html XML read_xml to_xml binary Excel read_excel to_excel SQL SQL read_sql to_sql 먼저 CSV 파일을 읽고 쓰는 함수로 read_csv(), write_csv()가 있다. read_csv() 파일이나 URL 등에서 데이터를 읽어온다. 아래 코드는 github에 있는 ..

Python 2022. 7. 10. 23:26

Python에서 SQL 사용 (1)

배경 회사의 일과 개인의 경력이 일치하지 않을 때가 있다. 2021년까지 인공지능, 데이터 사이언스 업무를 하였으나 2022년부터 다시 웹 개발을 하게 되었다. 어렵게 익힌 파이썬 기술은 점점 잊혀지고 백엔드 기술인 SQL은 이제 눈에 들어오는 정도이다. 두 기술 모두 중요하므로 함께 사용하기로 결정하니 마음이 편안해진다. 개요 먼저, 파이썬에서 SQL을 사용하기 위해 필수적으로 쓸 패키지는 SQLite이다. SQLite는 서버 프로세스가 필요 없고 비표준 SQL 변형으로 데이터베이스에 접근할 수 있는 경량 디스크 기반 데이터베이스를 제공하는 C 라이브러리이다. sql ite3 모듈은 DB-API 2.0 사양과 호환 되는 SQL 인터페이스 를 제공한다. 사용법 1. 데이터베이스 객체 생성 먼저 sqlit..

Python 2022. 5. 5. 01:28

파이썬과 리액트 사용을 위한 개발환경 설정

인공지능을 수행한 여러 사업 중 실제 만족스러운 결과를 낸 것은 AI-OCR이 유일하다. 챗봇에 적용된 자연어 처리 모델은 심심이 보다 못하고 IoT에 적용된 시계열 모델은 실제 데이터는 획득하기도 전에 프로젝트가 종료되었다. 코인투자의 광풍이 꺼지는 지금 다시 주식에 관심을 돌려 주식투자에 인공지능 모델을 적용해 보려 한다. 그전에 왼편 그림에 소개한 책에서 아이디어를 빌려보자. 책에서 소개한 개발환경과 달리 본 포스팅에서 구축한 개발환경은 아래와 같다. 구축 환경의 차이는 tensorflow의 개발환경(pip, 도커도 구식이고 쿠버네티스를 권장하고 있다.)이 더 익숙하기 때문이다. 파이썬 설치 64비트 3.x 버전 (3.9.5가 최신임) 파이썬 가상환경 설치 python -m venv --system..

Python 2021. 5. 30. 01:31

윈도우의 powershell에서 가상환경이 활성화 안되는 이유

인공지능 모델을 개발하고 웹으로 간단히 테스트할 목적으로 flask를 사용하려 한다. powershell에서 가상 환경을 만들고 flask를 설치하려고 한다. 가상 환경 설치 C:> python3 -m venv venv Python3 사용할 때 권장하는 명령 C:> pip install virtualenv Python2 사용할 때 권장하는 명령 가상 환경 활성화 활성화 명령 > venv\Scripts\activate 비활성화 명령 (venv) > deactivate 실제 활성화 명령을 실행했을 때 아래 문제 발생 활성화 명령이 실패한 원인 가상화 실행 명령은 스크립트를 실행해야 하는데 PowerShell이 이를 제한하기 때문이다. PowerShell 실행 정책 PowerShell의 실행 정책은 Power..

Python 2021. 5. 17. 14:46

데이터 대시보드 - streamlit 소개

배경 4차 산업 혁명의 요소 기술 중 사물인터넷(IoT)이 데이터를 생성하고, 빅 데이터(Big data)rk 이렇게 생성된 방대한 데이터를 처리하며, 인공지능이 인간을 대신하여 스스로 최적의 해법을 제시한다. 또한, 클라우드 컴튜팅이 데이터 저장, 처리 등에 가상화된 컴퓨팅 리소스를 즉시 제공(on-demand)하기 위해 사용된다. 이런 요소 기술에서 공통이 테이터이며 비 기술적인 관계자들은 종종 데이터를 더 쉽게 이해하기 위해 맞춤형이며 대화형 시각화를 위해 동적 대시보드를 원한다. 데이터를 다루는 대시보드는 다음 네 가지 기능은 최소한으로 제공하여야 한다. 분석: Numpy, Panda, SciPy와 같은 핵심 패키지를 통한 데이터 분석, 조작과 요약한다. 시각화: 다양한 그래프 라이브러리를 사용하..

Python 2020. 10. 28. 17:29

Prev 1 2 Next

목록Python (11)

꿈꾸는 사람.

티스토리툴바