티스토리 뷰

이게 무슨말인가? 나도 모르겠다 일단 문제를 확인해보자

어떤 부부의 첫째 아이가 여아였다, 이 때 둘째 아이도 여아일 확률은?

 

정말이지 나도 보면 볼수록 베이즈 통계가 수학계에서 받아들여졌다는 사실이 믿기지 않을정도로 터무니없는 문제를 다룬다. 당연히 그냥 50% 아닌가? 라고 생각 들 수밖에 없다. 그러나 그렇지 않으니까 문제로 나오는 것이 아닐까 일단 한번 이 문제를 베이즈 추론을 통해 다뤄보기로 하자.

한가지 이야기하고 넘어가자, 우리가 왜 당연히 50%라고 생각하는걸까? 그것은 우리가 보통의 표준 통계학인 네이만-피어슨 통계학 개념에 익숙해져 있기 때문이다. 그러나 이런 표준적인 통계학은 인류라는 하나의 종족에 대한 전체 통계적인 수치는 제시해줄 수 있지만, 문제에서 제시한 것 처럼 '어떤 부부'라는 특정한 부부의 세세한 특성까지 고려할 수는 없다.

가령, 문제에 제시된 부부의 경우 염색체 어떤 부분에 이상이 있어 여아를 낳을 가능성이 더 높은 부부라던가, 신체적인 요인에 의하여 여아를 낳게될 확률이 높다던가 하는 가능성은 표준 통계학에서는 논외로 하지만 베이즈 통계학에서는 이런 특정 샘플의 특정 성질에 대한 고려까지 가능하다.

이것이 계속해서 이야기하는 베이즈 통계학이 괴짜취급 당하던 이유이며, 동시에 네이만-피어슨 통계는 가지지 못하는,  베이즈 통계학만이 가지고 있는 유연성이다.

 

1. '확률의 확률'을 '사전확률'로 설정하자

베이즈 통계의 사전확률을 설정함에 있어 핵심은 바로 '타입'의 설정이다. 여기서의 사전확률은 '이 부부에서 태어날 아이가 여아일 확률'이다. 

사실, 여기서 사전확률 p(여아)는 지금까지 설정했던 것 처럼 0.5라던가 정확한 값으로 설정하는 것보다는 p(여아)는 0이상 1이하로 설정하는 것이 무난하다. 그러나 이렇게 사전확률을 확률 분포로 설정하는 경우는 해석이 상당히 복잡해지므로 추후에 공부하도록 하고, 여기서는 p(여아)일 확률을 0.4, 0.5, 0.6으로 3가지로 나눠서 공부해보도록 하자.

'부부에게서 태어날 아이가 여아일 확률'을 0.4 ~ 0.6으로 3가지 타입으로 결정했으므로, 이 부부는 세가지 타입 중 한가지에는 반드시 속하게 된다. 또한, 이 부부가 실제로 어떤 타입일지에 대한 정보는 전혀 주어진 것이 없으므로 '이유 불충분의 원리'에 따라 모두 동일한 확률로 설정하자.

현재까지의 세계를 그림으로 나타내면 다음 도표와 같다.

뭔가 이상하다. 부부가 어느 타입일 확률이 사전확률이라는거야 뭐 여아가 나올 확률이 사전확률이라는거야 왜 확률이 두개야? 이런 혼동이 올 텐데 정신바짝차리자 여기서 사전확률은 '이 부부가 어떤 세계에 속해있는가?' 를 나타내는 0.33으로 나눠져 있는 확률이며 확률p는 '이 부부가 특정 세계에 속할 때, 다음 아이가 여아일 확률'로 두 확률은 전혀 별개의 확률이다.

 

2. 각 타입에 속한 '여아가 태어날 확률'을 그대로 조건부 확률로 사용한다.

각 타입별로 여아를 낳을 확률을 이용하여 세계를 조건부 확률로 나타내면 

P(여아|p=0.4) , P(남아|p=0.4)

P(여아|p=0.5) , P(남아|p=0.5)

P(여아|p=0.6) , P(남아|p=0.6)

총 6가지 세계로 분기된다. 이것을 도표로 나타내면 다음과 같다.

 

 3. 첫째 아이가 여아였다는 정보를 바탕으로 세계를 업데이트한다.

 

사각형의 면적인 4: 5: 6의 비율을 유지한채 합이 1또는 100이 되도록 수정하면 0.27 : 0.33 : 0.4가 된다.

 

4. 업데이트 된 세계를 바탕으로 사후확률(베이즈 역확률)을 계산한다.

업데이트 된 사후 확률은

p(0.4) = 0.27

p(0.5) = 0.33

p(0.6) = 0.40이다.

따라서 처음 이 부부가 특정 확률에 속할 경우를 특정할만한 단서가 없어 '이유 불충분의 원리'에 따라 모든 타입(세계)에 속할 확률을 0.33으로 동일하게 두었으나, 첫 째 아이가 여아였다는 정보를 통해 사후확률을 업데이트한 결과 이 부부가 각각의 타입(세계)에 속할 확률이 업데이트 되었다.

 

여기서 생각해봐야 할 것은 두가지가 있다.

1) 맨 처음 0.33으로 설정했던것과 다르게 해당 부부는 여아를 더 잘 낳는 부부에 속할 확률은 0.33에서 0.40으로 높아지고 여아를 덜 낳을 부부에 속할 확률은 0.33에서 0.27로 낮아진 것을 확인할 수 있다.

2) 이 예에는 '객관 확률'과 '주관 확률'이 혼재해 있다.

 

5. '다음 아이가 여아일 확률'을 구하려면 '기댓값'을 이용해야한다.

그래서? 사전확률이 정보를 통해 사후확률로 업데이트 된 것은 알겠다. 근데 이건 부모가 어떤 세계에 속하는지에 대한 확률이지 다음 아이가 여아일 확률은 아니었다. 다음 아이가 여아일 확률은 어떻게 구해야하는가?

'다음 아이가 여아일 확률'을 하나의 수치로 구하기 위해서는 '평균값'을 이용해야한다.

확률의 평균치는 수학에서 '기대치'또는 '기댓값'으로 부른다. 기댓값 개념에 대해서는 추후에 다시 공부하기로 하자.

 

다음 아이가 여아일 확률은 (부모가 각각의 타입에 속할 확률 * 해당 타입에서 여아를 낳을 확률)을 모두 더한 값이므로 0.108 + 0.165 + 0.24 = 0.513으로 51.3%확률로 다음 아이는 여아가 된다.

(왜 3으로 나누지 않는가? 나도 이해가 안가네 이건 확률의 기댓값에 대한 개념공부를 추후 하고 수정해야할듯하다.)

댓글