메인 메뉴로 바로가기 주제분류 메뉴로 바로가기 본문으로 바로가기

수학산책

정규분포

세상을 설명하는 분포?

세상의 수많은 현상들은 대부분 정규분포를 따른다고 한다. 그런데 정규분포를 나타내는 식을 보면 너무나 복잡하게 생겨서, 어떻게 저런 식이 나왔는지도 알 수가 없고, 세상의 수많은 일이 정규분포로 설명된다는 것도 납득이 잘 안 된다. 정규분포라는 것은 도대체 어떻게 생각하게 되었을까?

윷짝을 보자 - 확률분포

이 세상 수많은 일들 가운데 우연의 지배를 받는 것이 많다. 주사위를 던져 나오는 점의 개수를 생각해 보면, 어떤 개수이든 같은 정도의 확률로 일어나게 된다. 동전을 던져 앞면이 나오는지 뒷면이 나오는지를 따져 보아도 마찬가지이다. 반면, 어떤 현상의 경우 일어나는 확률이 모두 같지는 않을 수도 있다. 예를 들어 윷놀이에서 모나 윷이 나올 확률은 도, 개, 걸이 나올 확률보다 훨씬 낮다. 이때 각각의 경우가 일어날 확률이 어떤지를 나타내는 것이 확률분포이다. 주사위나 동전의 경우 모든 경우의 확률이 같으므로 균등분포(uniform distribution)라 부른다.

윷의 경우, 각각의 윷짝이 엎어질 확률이 p, 뒤집어질 확률이 q(=1-p)라 하고, 도, 개, 걸, 윷, 모가 나올 확률을 구하여 보자. 윷이나 모가 나올 확률은 간단하다. 모든 윷짝이 똑 같은 모양이 되어야 하므로, 모가 나올 확률은 p4, 윷이 나올 확률은 q4이다. 도가 나오려면, 네 개의 윷짝 가운데 하나만이 뒤집어지고 나머지는 엎어져야 하므로, 어느 것이 뒤집어지느냐에 따라 네 가지 가능성이 있다. 즉, 도가 나올 확률은 4p3q가 된다. 개가 나오려면, 네 개의 윷짝 가운데 어느 두 개가 엎어지느냐에 따라 다음과 같이 모두 6 가지 경우가 나온다. 따라서 확률은 6p2q2.

윷놀이에서 개가 나오는 경우

걸의 경우, 도와 마찬가지로 네 가지 가능성이 있으므로, 확률은 4pq3이 된다. 일일이 세어보고 계산하는 것은 매우 번거롭지만, 다행스럽게도 이 계산은 (p+q)4을 전개하여 구할 수도 있다. 각 항은 차례대로 윷, 걸, 개, 도, 모가 나올 확률이 된다. 전개의 결과는 아래와 같다.

 이미지 1

이 식을 조합(nCr)을 이용해서 표현하면 아래와 같이 된다.

 이미지 2

위 식은 p와 q의 두 항으로 이루어진 식의 거듭제곱을 전개한 것으로 일반적으로 “이항정리(binomial theorem)”로 불린다. 이런 점에서 윷을 던지는 경우와 같은 확률분포를 이항분포(binomial distribution)라 한다.

윷짝이 많아지면? - 정규분포

우연의 지배를 받는 세상의 수많은 현상들은 그 원리를 들여다 보면 이항분포에 따라 발생확률이 결정되는 경우가 많다. 미시적인 관점에서 보면 생명체가 성장하는 것도 마찬가지이다. 하나의 세포가 분열하여 늘어나는 것은 대체로 세포마다 비슷한 확률을 보이지만, 이것이 모이고 모이면 생명체의 크기가 다양하면서도 어떤 추세 같은 것이 나타나게 된다. 사람의 키가 제각각이지만 같은 연령의 사람 키는 대체로 평균에 가까운 사람이 압도적으로 많은 것처럼 말이다. 따라서 원리적으로는 이항분포를 이용하여 확률을 계산하면 세상의 수많은 현상들을 잘 설명할 수 있게 된다. 다만, 여기에 한 가지 사소한(?) 문제가 있으니, 바로 직접 확률을 계산하기에는 계산량이 너무 많다는 점이다.

예를 들어, 엎어지거나 뒤집어질 확률이 1/2인 윷짝 100개를 던진다면, 대체로 절반 정도는 엎어지고 절반 정도는 뒤집어지는 경우가 많을 것이다. 그 확률은 얼마나 될까? 정확히 50개씩 엎어지고 뒤집어진다고 하면 그 확률은 다음과 같다.

 이미지 3

이 값 자체는 열심히 계산해서 구할 수도 있지만, “대체로 절반 정도”라는 표현에 부합하도록 엎어진 윷짝과 뒤집어진 윷짝의 개수 차이가 10개를 넘지 않는 경우의 확률을 계산하려면 다음 식을 계산해야 한다.

 이미지 4

컴퓨터의 위력을 빌면 어찌어찌 해결할 수 있겠지만, 윷짝이 1000개를 넘는다면 도저히 일일이 계산하는 방식으로는 문제를 해결할 길이 없다. 수학자 드무아브르(A. de Moivere, 1667-1754)가 고심하였던 문제가 바로 이것이었다. 물론 그가 윷놀이를 연구하였다는 뜻은 아니다.

중심극한정리(central limit theorem)

아브라함 드무아브르(Abraham de Moivre, 1667~1754)

드무아브르는 시행횟수 N이 아주 큰 경우 이항분포가 어떤 식에 가까워질지를 연구하였다. 마침내 1733년에 발표한 논문에서 드무아브르는 문제의 식이 다음과 같이 표현됨을 증명하는 데 성공하였다.


이 근사식은 시행횟수 N이 충분히 클 때 유도되는 식이지만, 실제로는 N이 그리 크지 않아도 비교적 잘 성립한다. 드무아브르는 “내가 시험해서 확인한 것인데, N이 100을 넘을 정도로 상당히 큰 값이 아니더라도 내 방법을 쓰면 꽤 괜찮은 결과를 얻을 수 있다”라고 기록하였다. 아마도 그는 몇 가지 경우에 대해 일일이 정확한 값을 구해 보았던 것 갈다. 이항분포는 이산적인(discrete) 확률분포이지만, 시행횟수 N이 충분히 크다면, 연속적인 양처럼 다룰 수 있다.


위의 오른쪽 식에서 k의 값을 바꾸어 가며 점을 찍은 다음 매끈하게 연결하면 다음 그림과 같은 종모양의 곡선이 된다. 이 곡선을 보면, 양쪽 끝으로 갈수록 확률이 급격하게 작아지는 것을 알 수 있다.

 이미지 5

연속적인 곡선으로 생각하면, 유한 개의 확률을 하나하나 계산하여 더하는 대신, 일정 구간에서 위의 함수를 적분하여 확률을 계산할 수 있다. 앞서 구해 보았던 “대체로 절반 정도의 윷짝이 엎어지는 확률”을 이 끔찍해 보이는 식을 이용하여 계산해 보면, 더 끔찍해 보이는 다음의 식이 된다.

 이미지 6

적분하면 확률이 나온다는 점에서 이런 함수를 “확률 밀도 함수”라 한다. 이 확률 밀도 함수를 이용하여 나타내어지는 확률 분포를 정규분포(normal distribution)라 한다. 이후 라플라스(P.-S. Laplace, 1749-1827)는 이항분포가 아닌 확률분포에 대해서도 시행횟수가 크면 시행에 따른 평균값이 정규분포를 따름을 보였다. 이것은 중심극한정리(central limit theorem)라 하며, 통계학의 핵심적인 이론 가운데 하나이다.

가우스의 통찰력

르장드르(Adrien-Marie Legendre)의 초상화
19세기, 작자미상.

정규분포는 19세기의 가장 위대한 수학자인 가우스(C. F. Gauss, 1777-1855)에 의해 새롭게 해석된다. 가우스는 관측에 따른 오차의 정도가 대체로 평균값 주변에서 발생한다는 점에 착안하여 정규분포에 따른 확률 밀도 함수와 똑 같은 식을 얻을 수 있었다. 이것은 관측 오차 역시 정규분포를 따른다는 것으로, 이후 실험으로 구한 관측값에서 참값을 추정해내는 근본적인 원리로 자리잡게 된다. 이런 점에서 위의 종모양 곡선을 오차곡선(error curve)라고도 부른다.

사실 가우스가 이런 착상을 통하여 최소제곱법이라 부르는 원리를 유도한 과정은 다소 억지스럽고 순환논법적인 면이 있었다. 또, 최소제곱법 자체는 르장드르(Adrie n-Marie Legendre, 1752-1833)가 이미 발견한 것이어서 새로운 발견이라 하기도 어려웠다.그러나 가우스의 착상은 여러 수학자에게 큰 충격을 주었다. 특히 라플라스는 가우스의 논문을 보고서, 자신이 증명한 중심 극한 정리를 이용하여 최소제곱법의 수학적 기초를 다지는 데 성공할 수 있었다. 이 과정에서 르장드르와 가우스 가운데 누가 먼저 최소제곱법을 발견하였는지를 놓고 격렬한 논쟁이 벌어지기도 하였다. 두 대가가 서로를 비난하는 글을 보면 키보드워리어들의 논쟁쯤은 비교도 안 되어 보인다.

세상을 설명하는 정규분포

중심 극한 정리에 따르면 정규분포는 어떤 확률분포에 대해서도 적용되는 대단히 좋은 확률분포인 데다, 또한 관측 오차를 설명하는 확률분포이기도 하므로, 세상 모든 일이 정규분포를 따른다고 생각하는 것은 어쩌면 당연한 결론이라 하겠다. 정규분포라는 이름 또한 그런 뜻에서 지어진 것이었다. 지극히 정상정인 분포라는 뜻이다. 어떤 현상을 관찰한 결과가 정규분포를 따르지 않는다면, 그것은 자료가 부족한 것으로 생각될 정도였다.

정규분포 곡선. 그림에는 평균값(μ, 뮤) 에서 표준편차(σ, 시그마) 간격마다 해당되는 확률 분포의 값이 표시되어 있다.
세상 많은 일들이 이 정규분포를 따른다.

이런 믿음은 이후 정규분포와는 다른 확률분포들이 발견되면서 차츰 사라지게 되지만, 세상의 많은 일들이 정규분포를 따르고 있다는 것은 여전히 사실이다. 그러니 세상 모든 일은 아니라도 세상의 많은 일들이 정규분포를 이용하여 설명된다는 것은 어찌 보면 당연한 일이기도 하다.


관련링크 오늘의 과학 저자와의 질의응답 전체보기

관련이미지 8

위 이미지에 대한 권리는 출처사이트 게시자에게 있으며, 이를 무단 사용할 경우 법적 책임을 질 수 있습니다.

발행일

발행일 : 2010. 04. 27.

출처

제공처 정보

  • 박부성 경남대학교 수학교육과 교수

    서울대 수학교육과를 졸업하고, 서울대 수학과에서 석사, 박사 학위를 받았다. 고등과학원 연구원을 거쳐 현재 경남대학교 수학교육과 교수로 재직 중이다. 저서로는 <재미있는 영재들의 수학퍼즐 1,2>와 <천재들의 수학노트>가 있다. 또한2014년 서울 국제수학자대회 조직위원회 문화분과부위원장으로 대회를 준비하고 있다.

본 콘텐츠의 저작권은 저자 또는 제공처에 있으며, 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.
외부 저작권자가 제공한 콘텐츠는 네이버의 입장과 다를 수 있습니다.

위로가기