티스토리 뷰

문제 한가지를 설정해보고 베이즈 추정을 통해 문제를 해결해보자.

특정 암에 걸릴 확률은 0.1% (0.001)이라고 하자, 이 암에 걸렸는지를 진단하는 키트가 있고, 이 암에 걸려있는 사람(D)이 진단 키트로 양성 진단(+)을 받을 확률( P(+|D) )은 95%(0.95)이고 건강한 사람(H)이 양성(+)으로 오진 받을 확률( P(+|H) )이 2%(0.02)이다. 당신이 이 검사에서 양성이라고 진단되었을 때, 실제로 암에 걸려있을 확률은?

 

앞에서 공부한대로 베이즈 추정의 프로세스를 따라 문제를 해결해보자. 베이즈 추정 프로세스를 모르거나 기억나지 않는다면 다음 포스팅을 참고하자

https://biomadscientist.tistory.com/41

 

1부) 베이즈 통계학의 기초 -1.정보를 얻으면 확률이 바뀐다.

1-1. 베이즈 추정을 이용하면 '쇼핑족'과 '아이쇼핑'족을 판별할 수 있다. 비즈니스에서 실제로 사용될법한 예를 들어 설명해보자, 상품 판매원이 어떤 손님이 들어왔을 때 가장 신경써야 할 부분

biomadscientist.tistory.com

 

1. 의료 데이터를 근거로하여 타입에 대한 사전확률(prior probability)을 설정하자.

P(H) = 건강한 사람일 확률 = 0.999

P(D) = 암에 걸린 사람일 확률 = 0.001

 

2. 검사의 정밀도를 근거로 '조건부 확률'을 설정한다

P(+|D) = 암에 걸린 사람이 검사에서 양성이 나올 확률 0.95,

P(-|D) = 암에 걸린 사람이 검사에서 음성이 나올 확률 0.05

P(+|H) = 건강한 사람이 검사에서 양성이 나올 확률 0.02,

P(-|H) = 건강한 사람이 검사에서 음성이 나올 확률 0.98

 

3. 추가로 주어지는 정보를 통해 가능성이 없는 세계를 제거한다.

실제로 양성으로 진단되었으므로 음성의 세계를 제거하면

 

P(+|D) = 0.95 * 0.001 = 0.00095 (0.095%)

P(+|H) = 0.999 * 0.02 = 0.01998 (1.998%)

 

4. 얻어진 확률을 이용해 베이즈 역확률(사후확률)을 구한다.

0.095 : 1.998의 합이 100이 되도록 비율에 맞춰 스케일을 업데이트 해주면

0.0454 : 0.9546 = 4.5% : 95.5% 따라서 내가 실제로 암에 걸려있을 확률은 4.5%이다.

 

아무나 붙잡고 암 간이 진단 테스트를 했더니 양성이 나왔다. 분명 그 사람은 상당히 불안하겠지만, 베이즈 추정에 의한 실제 암에 걸려있을 확률은 4.5%로 꽤나 낮다.

이렇게 베이즈 추정에 의해 얻어지는 결과는 우리가 생각하는, 느끼는 직감과는 상당히 다른 양상을 띄는 경우가 많다.

댓글