일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터베이스
- arm
- 해외직구
- 손민한
- 뉴스타파
- ubuntu 12.04
- 문파문파
- NC 다이노스
- 안드로이드
- 블로그
- Linux
- 리뷰
- NC다이노스
- mysql
- python
- 애플
- 인공지능
- 국정원
- 문파문파 공략
- 타이젠
- Tizen
- 프로야구
- 야구
- ubuntu
- 우분투
- 태그를 입력해 주세요.
- 조세피난처
- 단통법
- 김경문
- 디자인 패턴
- Today
- Total
꿈꾸는 사람.
[데이터마이닝] 의사결정나무(Decision Tree Analysis) 본문
Data Mining 예측기법
데이터마이닝 기법들은 목표변수가 존재여부에 따라 지도예측(Supervised prediction, directed knowledge discovery)과 자율예측(Unsupervised prediction, undirected knowledge discovery)으로 분류되기도 한다.
지도예측(Supervised prediction) |
자율예측(Unsupervised prediction) |
n 판별분석 n 회귀분석 n 의사결정나무분석 n 신경망분석 n 시계열분석(forecasting) |
n 군집분석
|
지도예측(Supervised prediction)
범주형 (categorical) |
입력변수를 통해 목표변수의 각 범주에 대한 가능성(확률)을 예측하는 모형을 만드는 것이 목적이 되며, 예측모형을 통해 새로운 개체를 분류하고자 한다. |
연속형 (continuous) |
입력변수를 통해 목표변수의 값을 예측하는 모형을 만드는 것이 목적이다. |
자율예측(Unsupervised prediction)
단계 |
설명 |
Sampling 표본추출 |
분석의 목적에 따라 적절하게 추출된 표본의 추출된 표본의 활용은 비용과 시간의 절약, 보다 효율적인 모형화 작업을 위해 매우 중요하다. |
Exploration 탐색 |
기본적인 정보를 검색하고 유용한 정보를 추출하는 기법을 제공 |
Modification 수정 |
탐색 단계에서 얻어진 정보를 기반으로 모형화 단계에서 모형의 성능을 향상시키기 위해 데이터가 가진 정보를 효율적으로 사용할 수 있도록 데이터를 변형하고 조정. |
Modeling 모형화 |
이전 단계에서의 결과들을 토대로 분석목적에 따라 적절한 기법을 통하여 예측 모형을 찾아내는 방법들을 제공 |
Assessment 평가 |
모형화를 통해 얻어진 결과의 신뢰성, 타당성, 유용성 등을 평가. |
- 데이터 마이닝 작을 수행하는 과정임
의사결정나무 (Decision Tree Analysis) 1
의사결정나무의 개념
의사결정나무의 구성요소
[기능에 따른 분류]
이름 |
해당 마디 |
설명 |
뿌리마디(root node) |
① |
나무구조가 시작되는 마디. |
자식마디(child node) |
② ③은 ①의 자식마디 |
|
부모마디(parent node) |
①은 ② ③의 부모마디 |
|
끝마디(terminal node) |
④, ⑤, ⑦, ⑧, ⑨ |
각 나무줄기의 끝에 위치. 의사결정나무에서 분류규칙은 끝마디의 개수만큼 생성된다. |
중간마디(internal node) |
②, ③, ⑥ |
끝마디가 아닌 마디들 |
가지(branch) |
③, ⑥, ⑦, ⑧, ⑨ |
|
의사결정나무의 형성과정
- 알고리즘: CHAID (Kas 1980), CART (Breiman etal, 1984), C45(Quinlan, 1993). 분석의 목적과 자료구조에 따라 적절한 분리기준(split criterion)과 정지규칙(stopping rule)을 지정하여 의사결정나무를 얻는다.
- 가지치기: 분류오류(classification)를 크게 할 위험(risk)이 높거나 부적절한 추론규칙(induction rule)을 가지고 있는 가지(branch)를 제거.
- 타당성 평가: 이득도표(profit chart)나 위험도표(risk chart)와 같은 모형평가 도구 또는 평가용 데이터(validation data)에 의한 교차타당성(cross validation) 등을 이용하여 의사결정나무를 평가
- 해석 및 예측: 의사결정나무를 해석하고 예측 모형을 구축한다.
의사결정나무의 분리기준
- 분리기준(split criterion): 하나의 부모마디마다 자식마디들이 형성될 때, 입력변수(input variable)의 선택과 범주의 병합이 이루어질 기준.
입력변수 이용 -> 목표변수의 분포 파악 -> 자식마디 형성. 목표변수의 분포를 구별하는 정도를 순수도(purity) 또는 불순도(impurity)에 의해서 측정하는 것.
- 순수도(purity) 목표변수의 특정 범주에 개체들이 포함되어 있는 정도. ①마디에 비해 ②, ③ 마디의 순수도가 매우 높아짐.
분류나무(classification tree): 이산형 목표변수의 경우
- 사용되는 분리기준
회귀나무(regression tree): 연속형 목표변수의 경우
정지규칙과 가지치기
의사결정나무분석의 특징
장점 |
단점 |
해석의 용이성 - 나무구조로 표현되어 모형을 사용자가 쉽게 이해할 수 있다. |
비연속성 - 연속형 변수를 비연속적 값으로 취급하기 때문에 분리의 경계점 부근에서 예측오류가 클 가능성이 있다. |
교호작용효과의 해석 - 두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 알 수 있다. |
선형성 또는 주효과의 결여 - 선형모형에서는 주효과는 다른 예측변화와 관련시키지 않아도 각 변수의 영향력을 해설 할 수 있는데 의사나무는 그렇지 않다. |
비모수적 모형 - 선형성(linearity), 정규성(normality) 또는 등분산성 (equal variance) 등의 가정이 필요하지 않다. |
비안정성 - 분석용 자료(training data)에만 의존하므로 새로운 자료의 예측에서는 불안정(unstabile)할 가능성이 높다. |
분석 사례 1 – (분류나무): 신용평가 문제
한 은행의 신용평가 부서에서는 대출승인에 대한 의사결정 과정을 자동화하기 위해서 각 고객에 대한 신용평가 지수(credit score) 모형을 만들고자 한다. 이를 위해 HMEQ데이터 셋을 구성하였으며, 생성된 모형은 대출승인 여부를 결정하는 예측모형으로 사용될 것이다. 그러나 대출이 거절된 고객에게는 그 사유를 설명할 수 있어야 하므로 연구자가 모형을 충분히 이해할 수 있어야 한다. 따라서 적절한 예측력과 충분한 설명력을 확보하기 위해 의사결정나무를 이용하여 모형화를 시도. |
- "빅데이터 분석을 위한 데이터마이닝 방법론" 책에서 내용 요약 및 발췌. [본문으로]
'정보시스템감리사 > Database' 카테고리의 다른 글
ER 다이어그램. Relation으로 사상(Mapping) (0) | 2017.12.16 |
---|---|
[2016년][공무원 7급][데이터베이스] 기출 풀이. (0) | 2017.04.27 |
[정보시스템감리사][데이터베이스][2012년 기출풀이]BCNF정규형 (0) | 2017.01.25 |
[정보시스템감리사][데이터베이스][기출풀이] 2010년] 트랜잭션 개요 (0) | 2017.01.10 |