이번 글은 데이터마이닝 예측기법의 하나인 의사결정나무(Decision Tree Analysis)에 대한 것이다.
데이터마이니의 예측기법에 대해 간단히 설명하고 의사결정나무을 살펴 보겠다.

Data Mining 예측기법

데이터마이닝 기법들은 목표변수가 존재여부에 따라 지도예측(Supervised prediction, directed knowledge discovery)과 자율예측(Unsupervised prediction, undirected knowledge discovery)으로 분류되기도 한다.


지도예측(Supervised prediction)

자율예측(Unsupervised prediction)

n  판별분석

n  회귀분석

n  의사결정나무분석

n  신경망분석

n  시계열분석(forecasting)

n  군집분석

 


지도예측(Supervised prediction)

지도예측은 분석용 데이터는 n개의 사례로 구성되고, 각 사례와 연관되어 입력변수(예측변수, 설명변수, 독립변수)들과 목표변수(반응값, 결과치, 종속변수)들이 존재한다.
이러한 데이터는 입력변수로부터 목표값을 예측하는 모형(규칙)을 개발하기 위해 사용된다.

지도예측의 문제는 목표변수가 범주형(질적)인 경우와 연속형(양적)인 경우로 크게 나누어질 수 있다.

범주형 (categorical)

입력변수를 통해 목표변수의 각 범주에 대한 가능성(확률)을 예측하는 모형을 만드는 것이 목적이 되며, 예측모형을 통해 새로운 개체를 분류하고자 한다.

연속형 (continuous)

입력변수를 통해 목표변수의 값을 예측하는 모형을 만드는 것이 목적이다.


자율예측(Unsupervised prediction)

자율예측은 목표변수가 명확하게 규정되지 않는 분석기법을 의미하며, 인과관계를 결정하는 규칙을 찾기보다는 데이터에 존재하는 여러 가지 형태의 특징을 찾는 것을 목표로 한다.

SEMMA - 데이터마이닝의 5단계

단계

설명

Sampling

표본추출

분석의 목적에 따라 적절하게 추출된 표본의 추출된 표본의 활용은 비용과 시간의 절약, 보다 효율적인 모형화 작업을 위해 매우 중요하다.

Exploration

탐색

기본적인 정보를 검색하고 유용한 정보를 추출하는 기법을 제공

Modification

수정

탐색 단계에서 얻어진 정보를 기반으로 모형화 단계에서 모형의 성능을 향상시키기 위해 데이터가 가진 정보를 효율적으로 사용할 수 있도록 데이터를 변형하고 조정.

Modeling

모형화

이전 단계에서의 결과들을 토대로 분석목적에 따라 적절한 기법을 통하여 예측 모형을 찾아내는 방법들을 제공

Assessment

평가

모형화를 통해 얻어진 결과의 신뢰성, 타당성, 유용성 등을 평가.

- 데이터 마이닝 작얼을 수행하는 과정임


의사결정나무 (Decision Tree Analysis)[각주:1]

의사결정나무분석은 탐색과 모형화라는 두 가지 특징을 모두 가지고 있다.
즉, 의사결정나무분석은 판별분석, 회귀분석 등과 같은 모수적(parameter) 모형을 분석하기 위해 사전에 이상치(outlier)를 검색하거나 분석에 필요한 변수 또는 모형에 포함되어야 할 상호작용의 효과를 찾아내기 위해서 사용될 수도 있고, 의사결정나무 자체가 분류 또는 예측모형으로 사용될 수도 있다.

탐색 특징으로 이상치를 검색하거나 분석에 필요한 변수나 모형에 포함되어야 할 상호작용의 효과를 찾는데 사용됨.
모형화 특징으로 의사결정나무 자체가 분류 또는 예측모형으로 사용됨.

의사결정나무의 개념

의사결정 규칙(rule)나무구조로 도표화하여 분류(classification)예측(prediction)을 수행하는 분석방법이다.
이 방법은 분류 또는 예측이 나무구조에 의한 추론규칙(induction rule)에 의해서 표현되기 때문에 다른 방법들(예, 신경망분석, 판별분석, 회귀분석 등)에 비해 그 과정을 쉽게 이해하고 설명할 수 있다.

의사결정나무의 구성요소

[기능에 따른 분류]

이름

해당 마디

설명

뿌리마디(root node)

나무구조가 시작되는 마디.

자식마디(child node)

은 ①의 자식마디

 

부모마디(parent node)

①은 ② 의 부모마디

 

끝마디(terminal node)

, ⑤, ⑦, ,

각 나무줄기의 끝에 위치.

의사결정나무에서 분류규칙은 끝마디의 개수만큼 생성된다.

중간마디(internal node)

, ③, ⑥

끝마디가 아닌 마디들

가지(branch)

③, ⑥, ⑦, ,

 

 

의사결정나무의 형성과정

  • 알고리즘: CHAID (Kas 1980), CART (Breiman etal, 1984), C45(Quinlan, 1993). 분석의 목적과 자료구조에 따라 적절한 분리기준(split criterion)과 정지규칙(stopping rule)을 지정하여 의사결정나무를 얻는다.
  • 가지치기: 분류오류(classification)를 크게 할 위험(risk)이 높거나 부적절한 추론규칙(induction rule)을 가지고 있는 가지(branch)를 제거.
  • 타당성 평가: 이득도표(profit chart)나 위험도표(risk chart)와 같은 모형평가 도구 또는 평가용 데이터(validation data)에 의한 교차타당성(cross validation) 등을 이용하여 의사결정나무를 평가

  • 해석 및 예측: 의사결정나무를 해석하고 예측 모형을 구축한다.

의사결정나무의 분리기준

  • 분리기준(split criterion): 하나의 부모마디마다 자식마디들이 형성될 때, 입력변수(input variable)의 선택과 범주의 병합이 이루어질 기준.

입력변수 이용 -> 목표변수의 분포 파악 -> 자식마디 형성. 목표변수의 분포를 구별하는 정도를 순수도(purity) 또는 불순도(impurity)에 의해서 측정하는 것.


  • 순수도(purity) 목표변수의 특정 범주에 개체들이 포함되어 있는 정도. ①마디에 비해 ②, ③ 마디의 순수도가 매우 높아짐.

분류나무(classification tree): 이산형 목표변수의 경우

목표변수의 각 범주에 속하는 빈도(frequency)에 기초하여 분리가 일어남.

  • 사용되는 분리기준
카이제곱 통계량의 p-값 (p-value of Chi Square statistic)
지니 지수(Gini index)
엔트로피 지수(Entropy index)

회귀나무(regression tree): 연속형 목표변수의 경우

목표변수가 연속형(구간형)인 경우 목표변수의 평균(mean)과 표준편차(standard deviation)에 기초하여 마디의 분리가 일어난다.

정지규칙과 가지치기

정지규칙(stopping rule) – 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 여러가지 규칙
지나치게 많은 마디 –> 새로운 자료 적용 -> 예측 오차 높아짐. -> 가지치기(pruning) 필요.

의사결정나무분석의 특징

장점

단점

해석의 용이성

-        나무구조로 표현되어 모형을 사용자가 쉽게 이해할 수 있다.

비연속성

-        연속형 변수를 비연속적 값으로 취급하기 때문에 분리의 경계점 부근에서 예측오류가 클 가능성이 있다.

교호작용효과의 해석

-        두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 알 수 있다.

선형성 또는 주효과의 결여

-        선형모형에서는 주효과는 다른 예측변화와 관련시키지 않아도 각 변수의 영향력을 해설 할 수 있는데 의사나무는 그렇지 않다.

비모수적 모형

-        선형성(linearity), 정규성(normality) 또는 등분산성 (equal variance) 등의 가정이 필요하지 않다.

비 안정정

-        분석용 자료(training data)에만 의존하므로 새로운 자료의 예측에서는 불안정(unstabile)할 가능성이 높다.


분석 사례 1 – (분류나무): 신용평가 문제

한 은행의 신용평가 부서에서는 대출승인에 대한 의사결정 과정을 자동화하기 위해서 각 고객에 대한 신용평가 지수(credit score) 모형을 만들고자 한다.

이를 위해 HMEQ데이터 셋을 구성하였으며, 생성된 모형은 대출승인 여부를 결정하는 예측모형으로 사용될 것이다.

그러나 대출이 거절된 고객에게는 그 사유를 설명할 수 있어야 하므로 연구자가 모형을 충분히 이해할 수 있어야 한다.

따라서 적절한 예측력과 충분한 설명력을 확보하기 위해 의사결정나무를 이용하여 모형화를 시도.

 

  1. "빅데이터 분석을 위한 데이터마이닝 방법론" 책에서 내용 요약 및 발췌. [본문으로]

+ Recent posts

티스토리 툴바