반응형
Notice
Recent Posts
Recent Comments
관리 메뉴

꿈꾸는 사람.

확률과 베이지안 확률 본문

Data Science

확률과 베이지안 확률

현무랑 니니 2021. 4. 30. 14:39
반응형

인공신경망을 이루는 퍼셉트론(perceptron)은 입력과 가중치를 곱한 것을 합하여 활성 함수를 통해 판단한다.

입력 데이터에 곱하는 가중치는 확률/통계 개념을 사용한다.

따라서 확률과 통계가 인공지능에 추가되었다는 뜻이다.

 

이번 글에서는 확률을 간단히 설명하고 인공지능에 적용된 베이지안 확률을 알아본다.

확률

확률(確率)은 사건이 발생할 가능성을 수치로 설명하는 방법이다.

사건의 확률은 0과 1 사이의 숫자로 표시되며 0은 불가능한 사건을 1은 확실한 사건을 말한다.

 

확률에 대한 수학적 용어를 정리해 보자.

용어 표기 설명
표본 공간 (sample space) 가능한 모든 결과의 모음
사건 (event)   표본 공간의 부분 집합
사건 A의 확률 P(A), p(A) 또는 Pr(A)  
여사건 A', AC 이벤트 A의 반대 [A가 아님]
여사건 A의 확률 P(AC)= 1 - P(A)  
합사건 A ∪ B 두 사건 A와 B의 합집합으로 표현되는 사건
합사건의 확률 P(AB) = P(A) + P(B) - P(A∩B)
P(AB) = P(A) + P(B)  (A와 B가 mutually exclusive)

곱사건 A  B 두 사건 A와 B의 곱집합으로 표현되는 사건
곱사건의 확률 P(AB) = P(A|B)P(B) = P(B|A)P(A)
P(AB) = P(A)P(B)  (A와 B가 mutually exclusive)
Mutually exclusive events P(A∩B) = 0 A와 B가 동시에 일어나지 않는 사건
독립사건   한 사건이 다른 사건에 영향을 주지 않을 때 두 사건 A와 B를 독립사건이라 함
종속사건   두 사건 A와 B에서 한 사건의 결과가 다른 사건에 영향을 줄 때 두 사건 A와 B를 종속사건이라 함

 

사건 A의 확률은 다음과 같이 나타내며 수학적 확률로 표현할 수 있다.

조건부 확률(Conditional probability)

조건부 확률(Conditional probability)은 어떤 다른 사건 B가 일어났을 때 어떤 사건 A가 일어날 확률로 아래와 같이 쓴다.

다음은 '빅데이터분석기사 2회 필기'의 기출문제이다.

A사 제품일 확률 50%, B사 제품일 확률 30%, C사 제품일 확률 20%
A사 제품의 불량률 1%, B사 제품의 불량률 2%, C사 제품의 불량률 3%,
불량품이 발견되면 A사 제품일 확률은? 1
P(A∩B) 불량품 중 A 사 제품일 확률
P(B)는 불량품일 확률

P(A|B)
= P(A∩B) / P(B)
= (50% * 1%) / (50% * 1% + 30% * 2% + 20% * 3% )
= 5 / ( 5+ 6 + 6)
= 5/17

확률 해석

확률 해석에는 크게 두 가지 범주가 있다.

객관적 확률 또는 물리적 확률은 임의의 물리적 시스템과 관련이 있고 이런 유형의 사건은 장기간의 시도에서 지속적인 속도 또는 "상대적 빈도"로 발생하는 경향이 있다.
물리적 확률 이론의 두 가지 주요 종류는 빈도주의적 설명 (예 : Venn, Reichenbach, von Mises) 및 성향 설명 (예 : Popper, Miller, Giere 및 Fetzer)이다.

증거 확률(Evidential probability)은 베이지안 확률(Bayesian probability)로도 불리며 주관적 타당성을 나타내는 방법이다.

(위 확률 해석의 내용은 영문 위키를 인용하였다.)

빈도주의 확률 (Frequentist probability)

객관적 확률 또는 물리적 확률의 해석에는 크게 빈도주의(Frequentism)와 성향(Propensity)이 있다.

이 중 일상 생활에서 매우 친숙한 빈도주의에 대해서만 알아본다.

빈도주의 확률 또는 빈도 확률은 사건의 확률을 많은 시도를 통해 나타나는 빈도로 정의한다.

빈도 확률의 예로 동전 앞면이 나올 확률이 1/2이란 것은 동전을 던지는 횟수를 반복하여 빈도수(frequency)를 측정하여 구할 수 있다.

베이지안 확률(Bayesian probability)

확률 개념을 주관이나 믿음(belief)과 관련 된 것으로 보아 개인의 주장과 그 주장을 지지하는 증거 간에 이루어지는 확률로 본다. 즉, 특정 상황의 불확실성을 추정하는 확률이다.

베이지안 확률의 정의

두 확률 변수의 사전 확률과 사후 확률 간의 관계를 나타내는 정리로 사전확률 P(H)와 우도확률 P(E|H)를 안다면 사후 확률 P(H|E)를 알 수 있다.

 

P(H), 사전 확률(prior probability): 결과가 나타나기 전에 결정되어 있는 원인(H)의 확률

P(E|H), 우도 확률(likelihood probability): 원인(H)가 발생했다는 가정하에서 결과(E)가발생할 확률

P(H|E), 사후 확률(posterior probability): 결과(E)가 발생했다는 가정하에서 원인(H)가 발생했을 확률

P(E), 주변 우도(marginal probability): 사건(E)가 발생할 확률

베이지안 확률의 예제

어떤 암이란 질병이 있다고 가정한다.
이 암에 걸릴 확률은 0.1%이다.
이 암을 검사하는 진단 장비로 암이 걸린 사람에게는 99% 확률로 양성 결과를 나타내고 암이 걸리지 않은 사람에게는 1% 확률로 양성 판정을 내린다.
이 때 양성 결과를 받은 사람이 실제로 암에 걸린 확률은 얼마인가? 

암에 걸리는 것을 H라고 하고 암 검사 결과가 양성 반응인 것을 E라 하면,

암에 걸릴 확률 P(H) = 0.1% = 0.001

암에 걸리지 않을 확률 P(~H) = 99.9% = 0.999

암에 걸린 사람이 양성일 확률 P(E|H) = 99% = 0.99

암에 걸리지 않은 사람이 양성일 확률 P(E|~H) = 1% = 0.01

양성 판정(사건 E)인 사람이 암에 걸릴(사전 확률 H) 사후 확률 P(H|E)는 9%가 된다.

이 사후 확률을 기반으로 암에 걸릴 확률 P(H)를 9%로 갱신하며 양성일 경우 암에 걸릴 확률은 어떤 변화를 보이는가?

P(H) = 9% (갱신)

P(~H) = 1 - P(H) = 91% (갱신)

P(E|H) = 99% = 0.99 (동일)

P(E|~H) = 1% = 0.01 (동일)

 

P(H|E) = (0.99 * 0.09) / (0.99 * 0.09 + 0.01 * 0.91) = 0.90733 = 91%

 

이처럼 베이지안 확률은 확률을 믿음의 정도를 나타내는 양으로 보며 모집단의 파라미터를 불확실성을 갖는 확률분포로 표현한다.

또한 모델의 파라미터를 미지의 값 또는 가변적인 값으로 보고, 데이터와 사건으로 지식을 향상하여 사후 확률로 사전 확률을 갱신하게 된다.

반응형
Comments