티스토리 뷰

Background/Math

정규분포 (Norminal distribution)

벼랑끝과학자 2023. 1. 16. 15:57

본 내용은 모두 KMOOC 여인권 교수님의 통계학의 이해 I 수업의 내용을 기반으로 작성됩니다.

개인 공부를 위해 수업의 내용을 정리할 뿐이고, 완벽한 이해를 바탕으로 작성되지 않는 부분도 있습니다.

http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2019_03SM_02/course/#block-v1:SookmyungK+SM_sta_004k+2019_03SM_02+type@sequential+block@4497e1d2ccbf4a33b336c44c8fdd70ce 

 

강좌 | SM_sta_004k | K-MOOC

 

www.kmooc.kr

 

1. 정규분포 (Norminal distribution)

정규분포의 확률밀도함수(PDF)

Gaussian distribution이라고 이야기하는 정규분포는 라플라스와 가우스의 연구에 의해 확립된 확률 밀도함수이다. 그래서 처음에는 Laplace-Gaussian curve라고 이야기하다가 나중에 칼 피어슨이 normal distribution이라는 말을 사용하면서 점차 normal distribution으로 정착되었다. 특히 시그마(σ)를 표준편차로 사용하기 시작한 것은 칼 피어슨이 최초로 위에서 보인 f(x)와 같은 형태의 정규분포의 확률밀도함수는 칼 피어슨 이후에 정립되어 사용된 것으로 생각하면 된다.

정규분포는 아래와같이 나타낸다.

그리고 정규분포의 시그마와 뮤 값은 파라미터로써 해당값들에 의해 정규분포의 형태가 변화하며 간단한 예시를 살펴보면 아래와 같은 그래프들이 있다.

동일한 시그마(표준편차)을 가질 때, 뮤(평균)값에 의한 변화 / 동일한 평균값을 가질 때 분산에 의한 변화

 

정규분포 파라미터에 의한 그래프의 변화의 성질은 아래와같다.

a) 뮤값은 정규분포 그래프의 평균값을 결정하고 그래프를 좌,우로 움직이게 한다.

b) 이때 정규분포는 좌우대칭이므로 뮤값은 결국 평균 = 중앙값 = 최빈값이라고 이야기해도 된다.

c) 시그마의 제곱은 정규분포 그래프의 분산값을 결정하고 그래프가 중심으로부터 퍼져있는 정도를 결정한다.

d) 그리고 분산(σ^2)의 제곱근(σ)은 표준편차이므로 시그마값은 정규분포의 표준편차가 된다.

 

2. 정규분포의 확률계산

확률밀도함수에서 확률을 계산하기 위해서는 면적을 구해야 하므로 적분을 해야한다.

연속형 확률변수의 확률 밀도함수에서 특정 구간에 속할 확률을 계산하기 위해서는 적분의 개념이 필요하다. 그런데 위에서 봤던 정규분포의 확률밀도함수를 다시한번 살펴보자

정규분포의 확률밀도함수의 적분식은 아래와 같다.

한눈에 봐도 상당히 계산식이 어렵고 실제로 적분의 power rule에 의해 나타낼 수도 없다고 한다. 조금 더 쉽게 계산할수는 없을까? 간단한 정규분포 하나를 예시로 들어 다시 생각해보기로 하자.

 

3. 표준 정규 분포 (standard norminal distribution)

표준 정규분포는 정규분포 중 특히, 평균이 0이고 분산이 1인(=표준편차가 1인) 정규분포를 이야기한다. 그리고 정규분포와 다르게 표준정규분포의 확률 밀도함수는 훨씬 간단한 형태로 나타낼 수 있게된다.

표준 정규분포의 확률밀도함수

그리고 특히 표준 정규분포의 경우 아래와같이 표현한다.

그런데 표준 정규분포의 경우도 마찬가지로 적분하기에는 어려움이 있고, 수치 해석학적으로 값을 계산하는수밖에 없다고 한다. 그 개념이 바로 우리가 고등학교 때 미치도록 보았던 '표준정규분포표'를 통한 해석이다.

표준정규분포의 적분식
이러한 형태의 표준정규 분포표를 한번쯤은 보았던 기억이 있을것이다.

이때 P(Z ≤ z)는 표준 정규분포에서 x축의 값을 z라고 했을 때, 표준정규분포에서 z값보다 작은 부분의 면적을 계산한 것이며 그 예로 P(Z ≤ 1.32)일 경우 x축의 값이 1.32보다 작은 부분의 면적을 계산하고 싶다는 의미이다.

면적의 넓이는 표에서 확인한 것 처럼 0.9066이다.

 

그리고 특히! 이 표준 정규분포표에서 눈여겨봐야하는 몇몇 값들이 있는데 이것에 대한 개념은 추후에 신뢰구간에 대한 공부를 할 때 다시 이야기하기로 하자, 표준정규분포표를 이용해 면적을 계산하는 형태에는 주로 이런 것들이 있다.

이렇게 다양한 형태로 주어지는 확률값은 정규분포가 0을 중심으로 대칭이라는 성질을 이용하면 쉽게 계산할 수 있을 것이다.

 

반대로, 면적값(α)을 주고 이때의 z값(분위수)을 계산하는 형태로도 생각해 볼 수 있겠다.

 

댓글