티스토리 뷰

https://biomadscientist.tistory.com/47

 

[오일석 기계학습] 2.2 수학 - 확률과 통계 - 곱 규칙과 전확률 규칙

기계학습이 다루는 데이터는 주로 '불확실성'을 가지고있는 실생활로부터 온 데이터들, 따라서 자연스럽게 기계학습 역시 확률과 통계를 잘 활용해야만 좋은 모델을 만들 수 있다. 1. 확률 기초

biomadscientist.tistory.com

이전 포스팅에서 조건부 확률과 결합확률의 곱규칙과 전확률 규칙에 대하여 공부하였다. 이번 포스팅에서는 두 규칙을 이용해 베이즈 정리에 대해 공부해보려 한다. 곱규칙과 전확률 규칙을 이해하지 못한 상태로는 베이즈 정리 이해가 어려울 수 있으니 먼저 이전 포스팅에서 다룬 두 규칙에 대한 이해를 선행한 후에 이 포스팅을 읽기를 추천한다.

 

2. 베이즈 정리와 기계 학습

 

베이즈 정리

조건부 확률과 결합 확률의 곱 규칙으로부터 생각해보자

일반적으로 사건 x와 y가 같이 일어날 결합 확률은 사건 y와 x가 같이 일어날 결합 확률과 같다. 

예를들어 상자에서 꺼낸 모형이 까만색 세모일 확률은 상자에서 꺼낸 도형이 세모이고 까만색일 확률과 같다는 말이다.

이것을 결합확률의 곱규칙을 통해 나타내면 다음과 같다.

$$P(x,y) = P(y|x)P(x) = P(y,x)=P(x|y)P(y)$$

그리고 위 식을 정리해보면 다음과 같이 나타낼 수 있는데 

$$P(y|x) = \frac{P(x|y)P(y)}{P(x)}$$

이 식이 바로 그 유명한 베이즈 정리 공식이다.

 

베이즈 정리를 이용하면 상당히 일반적이고 다소 황당하게 느껴지는 상황에도 통계를 적용하여 확률을 구할 수 있다. 예를 들어서 한번 살펴보도록 하자.

 

 

다음과 같은 공이 들어있는 주머니 3개가 있다고 하자.

 

먼저 어떤 사건이 발생했을 때 조건부 확률로 표현하는 방식은 이해 할 수 있어야 한다.

흰색 공을 뽑았을 때, 1번 주머니에서 나왔을확률 

$$P(1|흰색)$$

다음으로 이것을 베이즈 정리로 나타내면 다음과 같이 나타낼 수 있다.

$$P(1|흰색)=\frac{P(흰색|1)P(1)}{P(흰색)}$$

이때 P(흰색|1)은 1번 주머니를 골랐을 때, 흰색 공이 나올 확률이므로 9/12 = 3/4

P(1)은 1번 주머니를 선택할 확률이므로 1/3

P(흰색)은 전확률 법칙에 의해 

$$P(흰색)=\sum_i P(흰색,주머니_i) = \sum_i P(흰공|주머니_i)P(주머니_i)$$

= P(흰색|1)P(1) + P(흰색|2)P(2) + P(흰색|3)P(3) = 20/36

 

이것을 각각의 상황에 대입해보면 다음과 같다.

$$P(1|흰색) = \frac{\frac{9}{12}\frac{1}{3}}{\frac{20}{36}}=\frac{9}{20}$$

$$P(2|흰색) = \frac{\frac{5}{15}\frac{1}{3}}{\frac{20}{36}}=\frac{5}{20}$$

$$P(3|흰색) = \frac{\frac{1}{2}\frac{1}{3}}{\frac{20}{36}}=\frac{6}{20}$$

 

마지막으로 다시한번 베이즈 규칙식을 살펴보자 베이즈 식에서 중요하게 다루는 용어들에 대해 간단히 정리한다.

$$P(y|x) = \frac{P(x|y)P(y)}{P(x)}$$

좌항의 P(y|x)는 posteriror probability(사후확률)이다. 보통 직접적으로 구하기 어렵다.

따라서 베이즈 룰에 의해 직접적으로 계산하기에 상대적으로 용이한 likelihood(우도)와 prior probability(사전확률)로 분해하여 접근한다.

우항의 분자에서 P(x|y)는 likelihood(우도)이다. 여전히 구하기 어렵지만 최소한 사후확률보다는 구하기 쉽다.

P(y)는 prior probability(사전확률)이다. 사전확률은 내가 원하는대로 설정하거나 조사에 의해 설정할 수 있다. 또는 사전에 경험한 경험 또는 주관적인 믿음을 바탕으로 설정하거나, 아무런 증거도 아무런 단서도 없다면 모든 사건에 대한 발생 확률이 동일하다는 가정으로 단순 설정한다. (이것을 이유 불충분의 원리라고 한다.)

분모의 P(x)는 evidence 또는 marginal probability, marginal likelihood등 여러가지 용어로 불린다. 이것은 사후확률을 normalization 하는 상수값으로써 연구에 따라 크게 중요하지 않은 경우도 있다. 설명하기에 상당히 어려운 개념으로 베이즈 정리를 한 포스팅에서 자세히 설명하기에는 쉽지 않으므로 여기서는 대략적인 개념만 설명한다.

 

다시 위 그림을 보면서 이해해보자

P(주머니번호|흰색)은 사후확률(posterior probability)이다. 직접적으로 알기 어렵다는 말이 무엇인지 와닿는가? 흰색공이 골라져 나왔을 때 특정 주머니 번호 i에서 나왔을 확률이라는 의미인데 직관적으로 구하기 쉽지 않을것이다.

반면 P(흰색|주머니번호)는 우도(likelihood)이다. 여전히 구하기 어렵지만 최소한 사후확률보다는 구하기 쉽다는 말이 이해가 될것이다. 주머니번호를 특정하였을 때, 흰색 공이 나올 확률은 충분히 구할 수 있다.

P(주머니번호)는 사전확률(prior probability)이다. 여기서 사전확률은 주머니를 무작위로 골랐을 때 특정 주머니 번호가 나올 확률로써 여기서는 주머니가 각각 1개씩 존재하고, 특정 주머니가 더 잘 나올 확률이라던가 어떤 추가적인 정보가 전혀 없기 때문에 '이유 불충분의 원리'에 따라 세 주머니가 나올 확률은 동일하게 P(1) = P(2) = P(3) = 0.333이다. 

P(흰색)은 evidence, marginal probability, marginal likelihood등 여러 용어로 불린다. 위에서 언급한 것 처럼 사후확률을 계산할때 normalization의 역할을 한다. 경우에 따라 계산하지 않기도 하지만 중요하게 작용하는 경우도 있기에 개념은 이해해두도록 하자. 그리고 evidence를 계산할때는 각 사건들이 서로 배반이라는 조건 하에 전확률 법칙을 통해 marginalization한다는 것을 기억해 두도록 하자.

그러면 주머니가 선택될 확률 P(주머니번호) = 사전확률(prior probability)이 서로 다르다면 계산은 어떻게 달라지는가?

이번에는 각 주머니가 선택될 확률이 동일하지 않은 경우이다.

 

다음과 같이 먼저 숫자 카드를 뽑은 후에, 그 번호가 나온 주머니에서 공을 뽑는다고 가정해보자. 그러나 나는 어떤 숫자카드를 뽑았는지는 알지 못하고, 오직 공을 뽑았는데 하얀 공이 나왔다는 사실만 알고있다고 하자, 이때 이 공은 어느 주머니에서 나왔을 확률이 가장 높은가?

복잡해진 것 같지만 위에서 다룬 문제와 실상 다를 바 없다.

위 문제를 수식으로 나타내면 P(1|white) P(2|white) P(3|white) 세가지 확률 중 가장 높은 확률이 얼마인지를 묻는 문제이다. P(1|white)은 posterior probability로 직접 구하기는 어렵다. 따라서 베이즈 정리로 식을 다시 표현하면 다음과 같다.

$$P(1|white) = \frac{P(white|1)P(1)}{P(white)}$$

 

이때 우도 P(white|1)은 쉽게 9/12임을 알 수 있다. (일단 1번이 선택 된 경우 흰공이 나올 확률이므로)

P(white|2) = 5/15

P(white|3) = 3/6

 

각각의 주머니가 뽑힐 사전확률 P(i)는 그림에 주어져있다.

 

evidence, marginal likelihood, marginal probability P(white)는 각각의 주머니에서 흰공이 뽑히는 확률은 모두 독립이므로 전확률 법칙을 적용하여 계산할 수 있다.

$$P(white) = \sum_{i=1}^3P(white , i) = \sum_{i=1}^3P(white|i)P(i)$$

$$where \ i=1 \ P(white|1)P(1) = \frac{9}{12}\frac{1}{8}$$

$$where \ i=2 \ P(white|2)P(2) = \frac{5}{15}\frac{4}{8}$$

$$where \ i=3 \ P(white|3)P(3) = \frac{3}{6}\frac{3}{8}$$

각각의 값을 계산하여 더하면 43/96이 나온다. 즉 P(white) = 43/96

 

이제 우리는 위에서 계산한 값들을 이용해 각각의 사후확률을 계산할 수 있다. 계산해보면 P(1|white) = 9/43, P(2|white) = 16/43, P(3|white) = 18/43으로 공이 나왔을 주머니는 3번일 확률이 가장 크다.

베이즈 정리를 이용할 때 중요한 점은 '사전확률의 업데이트' 개념이다. 우리는 처음에 사전확률을 각각의 주머니가 뽑힐 확률로 설정했고 P(i)로 설정하였다. 그런데 어떤 사건이 발생한 이후 사건의 확률을 의미하는 사후확률 P(i|white)들이 업데이트 된 값을 보자. 

P(1) = 1/8 = 0.125 였는데 P(1|white) = 9/43 = 0.209로 0.08정도 증가하였다.

P(2) = 3/8 = 0.375 였는데 P(2|white) = 16/43 = 0.372로 0.003정도 감소하였다.

P(3) = 4/8 = 0.5 였는데 P(3|white) = 18/43 = 0.418로 0.082정도 감소하였다.

이렇게 추가적인 정보(흰색 공이 뽑혔다)를 통해 우리는 기존에 알고 있던 사전확률을 업데이트 할 수 있다. 이것이 베이즈 정리의 핵심이며 주관적 믿음만 가지고 설정한 사전확률이 실제로 통계적으로 유의미한 확률로써 사용될 수 있는 이유가 된다.

 

다음 포스팅에서는 최대우도법(Maximum Likelihood Estimation)에 대해 공부해보도록 하자.

 

↓ 내용이 혹시나 도움되셨다면 좋아요 눌러주세요 꾸준한 포스팅에 매우 큰 응원이 됩니다 🥰

댓글