티스토리 뷰

이번 포스팅에서는 문제를 다음과 같이 설정해보자

당신을 남성이라고 가정하자, 동료들 중 특정한 여성으로부터 발렌타인데이에 초콜렛을 전달 받았다. 
그녀가 당신을 진지하게 생각하고 있을 확률은?

 

이게 도대체 무슨 뜬구름 잡는 문제인가? 이게 수학이라고? 이걸 지금 수학문제라고 이야기하는 것인가? 이게 확률?

이런 생각을 하고있다면 아주 정상이다. 실제로 베이즈 통계학은 위와 같은 이유로 괴짜취급을 당하기도 했다.

 

다시 차근차근 베이즈 추론 프로세스를 이용해서 추론해보자

 

1. 사전확률을 설정한다.

계속 이야기 하게되겠지만 베이즈 추정에서 사전확률은 경험/믿음/신뢰에 의거하거나 혹은 무작위로 설정한 확률분포를 사용하면 된다.

그리고 여기에서 사전확률은 그녀는 나에게 호감이 있을까 없을까이며 이렇게 아무런 정보도 얻기 어려운 경우에 우리는 '이유 불충분의 원리'에 따라 가능한 확률들을 모두 동일하게 두고 시작할 수 있다. (여기서는 0.5 : 0.5)

이것이 베이즈 추론의 강점이자 단점인데, 베이즈 추론은 아무 근거가 없는 현상에 대한 확률 추론도 가능하게 해준다.

P(있다) = 0.5

P(없다) = 0.5

 

뒤에서 얘기하겠지만 이 사전확률은 당신의 신념에 따라 다르게 설정할 수 있다.

 

2. 어떤식으로든 데이터를 입수하여 '조건부 확률'을 설정한다.

사전확률의 경우 이렇게 무작위로, 내 주관대로 어떤 확률을 설정할 수 있지만, 조건부확률의 경우 객관적인 조사에 의한 통계적인 자료가 필요하다. 이럴땐 어떻게 할까? 간단한 앙케트 조사와 같은 자료 조사를 통해 다음과 같이 조건부 확률을 설정할 수 있다.

 

발렌타인데이에 호감이 있는 사람에게 초콜렛을 줄 확률 [P(준다|호감)]과 그렇지 않을 확률 [P(안준다|호감)],

호감이 없는 사람에게 초콜릿을 줄 확률 [P(준다|비호감)]과 그렇지 않을 확률 [P(안준다|비호감)]을 구할 수 있다.

 

앙케트 조사 결과를 통해 P(준다|호감) = 0.4 P(안준다|호감) = 0.6

P(준다|비호감) = 0.2 P(안준다|비호감) = 0.8이라는 결과를 얻었다고 하자, 지금까지 조사한 결과를 정리하여 도표로 나타내보면 다음과 같다.

 

3. 다음 추가적으로 얻어지는 정보로부터 세계를 업데이트한다.

당신은 초콜렛을 받았다는 가정이므로 초콜렛을 받지 못한 세계는 사라진다. 따라서 세계가 다음과같이 업데이트된다.

 

4. 베이즈 역확률(사후확률)을 업데이트한다.

0.2 : 0.1 비율을 유지하면서 합이 1이 되도록 업데이트하면 0.66 : 0.34가 되므로 초콜릿을 받음으로써(추가적인 정보를 접함으로써) 가장 초반에 설정했던 사전확률인 그녀가 나에게 호감이 있을 확률이 0.5에서 0.66으로 약 16% 증가하는것을 볼 수 있었다.

 

 

이 절에서 강조할 내용은 사전확률의 설정에 '사람의 신념/ 믿음의 정도'를 사용할 수 있다는 것이다. 여기서는 좋아할 확률과 그렇지 않을 확률을 0.5 : 0.5로 설정하였으나, 내가 생각하기에 그녀가 나를 좋아할 확률이 낮다면 좀 더 보수적으로 접근하여 사전 확률을 0.2 : 0.8로 설정할 수도 있고, 나는 자신감에 넘쳐 그녀는 나에게 푹 빠져있다 생각한다면 사전 확률을 0.9 : 0.1로 설정할 수도 있다.

이렇게 베이즈 추론 통계는 주관적으로 바라본 확률을 사용하는데 이것을 '주관 확률'이라 부르며 엄연히 주관 확률도 확률의 개념으로써 수학적으로 사용될 수 있다는 것은 많은 연구를 통해 증명이 되어있다. 그러니 베이즈 통계를 사이비로 몰아가는 어리석은 행동은 하지 않도록 하자!

댓글