본문 바로가기
AI · 인공지능/딥러닝 Tutorial

[딥러닝 입문 5] 확률·통계의 기초(1/5)

by 두우우부 2021. 1. 18.
반응형

5. 확률 · 통계의 기초

여기서는 기계학습에 이용하는 확률, 통계의 개념과 용어를 설명합니다.

 

세상에는 '무작위'로 일어나는 사건이나 배경의 메커니즘을 모르기 때문에 무작위로 취급해야만 하는 사건이 존재합니다. 이러한 임의의 사건을 이론적으로 취급하자면 사건 자체나, 사건 사이의 관계를 수학적으로 설명할 수 있어야 합니다. 확률론에서는 랜덤 하게 발생한 일을 사건(event)이라고 합니다(정확한 정의는 생략합니다).

 

여기서는 먼저 사건을 설명하는 도구로서 확률분포를 도입하고 이와 관련된 개념(주변 확률, 조건부 확률, 확률 변수의 독립)을 설명합니다. 또한 이러한 개념을 이용하여 베이즈의 정리를 설명합니다. 베이즈 정리에 의하면, 어떤 사건이 관측되었을 때, 그 원인이 되는 사건이 일어난 확률을 계산할 수 있습니다. 다음은 확률분포 중에서 관측 데이터에 적합한 최적 확률분포를 선택하는 방법인 최대사후확률추정치(MAP 추정)을 소개합니다. 기계 학습의 맥락에서, 이들은 훈련모델의 '최적' 파라미터를 결정하도록 대응합니다. 마지막으로, 기계 학습에서 자주 사용되는 통계 용어(평균, 분산, 표준편차, 상관계수 등)를 설명합니다.

5.1 확률 · 통계 및 기계학습의 관계

기계학습 시스템이 학습에 사용하는 것은 제한된 수의 관측 데이터지만, 대부분의 기계학습 태스크에서 원하는 것은 주어진 관측 데이터 뒤에 있는 보편성과 법칙을 파악하고, 미래의 사건에 대한 예측을 실시하는 것입니다. 기계학습은 그것을 달성하기 위해 통계학의 개념을 이용합니다.

 

통계학은 어떤 집단 전체에 대하여 조사하기 어려운 경우 집단에서 무작위 샘플링을 실시하여 원래 집단의 특성을 추정합니다. 수중에 있는 관측 데이터를 어떤 법칙에 의해 얻을수 있는 확률적인 샘플로 간주하여, 기계학습과 통계학을 연결시킵니다. 통계학을 이용하는 것으로, 어느 데이터가 미지의 데이터 원천에서 발생하기 쉬운지, 데이터가 틀렸는지, 어떤 방법으로 모델을 학습시키면 좋을지 등의 문제를 객관적으로 판단할 수 있도록 합니다. 또한 학습시킨 모델의 성능에 대한 이론적 보증도 통계에 의해 가능합니다. 이러한 기계학습의 통계적 측면을 강조할 경우를 '통계적 기계학습'이라고 합니다.

5.2 확률 변수와 확률 분포

현대 수학에서 널리 이용되는 '확률'의 개념을 공식화하기 위해 다양한 준비가 필요하므로, 이 문서에서는 '확률'이라는 말을 수학적으로 엄밀하게 정의하지는 않습니다. 대신 다음과 같이 생각합시다. 어느 대상으로 하는 현상에서 다양한 이벤트를 얻을 때, 각각의 이벤트마다 그것이 '어느 정도 일어날 것인가'라는 정도를 생각한다면, 확률은 그 정도를 말하는 것으로 합시다. 그리고 그 확률에 따라 다양한 값을 취할 수 있는 확률 변수(random variable)를 알아봅시다. 확률 변수는 이름에 '변수'라고 붙어 있습니다 만, '이벤트'를 '수치'로 변환하는 함수로 생각하면 쉽게 이해할 수 있습니다. 예를 들어, "동전을 던져 앞면이 나온다"는 이벤트를 '1'이라는 '수치'로 변환하고, "동전을 던져서 뒷면이 나온다"라는 이벤트를 '0'이라는 '수치'로 변환하는 함수를 생각하면, 이것은 '1'또는 '0'값 중 하나를 취할 수 있는 확률 변수(주석 1)라는 것입니다.

◇ 주석 1
여기에서는 개념의 설명을 쉽게하기 위해, 이 예와 같이 이산적인 값을 갖는 확률 변수를 고려하고, 특별히 명시하지 않는 이상 연속 값의 확률 변수는 생각하지 않기로 합니다.

 

그럼 확률적 현상의 예를 생각해 보겠습니다. 어느 찌그러진 주사위가 있어서, "주사위를 던져 x라는 눈이 나왔다"는 사건(주석 2)을 x라는 수치에 대응하는 확률 변수 X가 있다고 합시다. 그리고 이 확률 변수가 취할 수 있는 모든 값이 각각 어떤 확률로 출현하는지를 나타낸 표가 아래와 같습니다.

◇ 주석 2
x1,2,3,4,5,6 중 하나입니다. 즉 x∈{1,2,3,4,5,6}

 

확률 변수 X값

그 값을 취할 확률

1

0.3

2

0.1

3

0.1

4

0.2

5

0.1

6

0.2

 

이러한 표를 확률 분포(probability distribution)라고 합니다. 확률 분포에는 중요한 제약이 있으며, 확률 변수가 취할 수 있는 모든 값의 확률을 모두 더하면 합이 반드시 1이 될 것」 , 모든 확률은 0이상의 값일 것」 이렇게 두 가지를 항상 충족시켜야 합니다. 위 표의 왼쪽 열의 수치를 실현 값이라고 하며 소문자 x로 나타냅니다. 그리고 오른쪽 열의 각각의 x에 대응하는 확률을 p(x)라고 쓸 수 있습니다. 즉 위의 표에서 p(1)=0.3, p(2)=0.1,…… 입니다. 이 표기법을 사용하면 확률 분포를 가지는 2개의 제약은 다음과 같이 나타낼 수 있습니다.

 

여기에서 ∑x 는 모든 가능한 x값의 합을 나타내며, 위의 주사위의 예에서는

가 되겠습니다. ∀x는 가능한 x의 모든 값에서, 오른쪽의 조건 ( p(x)≥0 )가 성립한다는 것을 의미합니다.

 

p(1)=0.3이라는 것은, 확률 변수 X가 1을 취할 확률입니다만, 이것을 p(X=1)=0.3으로 쓰고 있습니다. 위의 p(x)는 확률 변수 X의 존재를 암시적으로 가정하고 p(X=x)를 쉽게 표기한 것, 즉 X라는 확률 변숫값 x를 취하는 확률로 생각할 수 있습니다. 한편, p(X)와 확률 변수만을 인수로 할 경우, 위의 표와 같은 확률 분포를 보입니다.

5.3 결합 분포 · 주변 확률

앞 절에서는 하나의 확률 변수에 대하여 그 분포란 무엇인가와 분포가 가지는 제약에 대해 설명했습니다. 이 절에서는 여러 확률 변수가 등장할 경우에 대해 생각해봅시다.

 

먼저 구체적인 예를 들어 보면, 2개의 주사위가 있습니다. 각각의 주사위에서 나오는 눈을 2개의 확률 변수 X, Y로 나타냅니다. 이 2개의 주사위를 동시에 흔들어, 첫 번째 주사위 x값을 취하고, 두 번째 주사위 y값을 취하는 사건의 확률은 다음과 같이 표기합니다.

x, y는 모두 1,2,3,4,5,6의 6개의 숫자 중 하나입니다. 예를 들어, "3"과 "5"의 눈이 나올 사건의 확률은

로 표시됩니다. 이와 같이, X=3이 되는 승리하는 Y=5이되는 등 여러 조건을 지정했을 때, 그들이 모두 동시에 성립할 확률을 동시 확률 (joint probability) 이라고합니다.

 

그럼 다음으로, 2개의 주사위를 별도로 살펴봅시다. 예를 들어, "첫 주사위 눈이 3"이라는 사건이 일어날 확률 p(X=3)은 첫 번째 주사위가 3이고, 두 번째 주사위가 1일 경우 / 2일 경우 / 3일 경우 /... / 6일 경우, 이렇게 6개의 패턴이 발생할 확률을 모두 더한 것입니다. 즉,

로 표시할 수 있습니다. 이때, ∑y는 "Y의 취할 수 있는 모든 값 y에 대한 합"입니다. 이것을 "(두 번째 주사위 값이 뭐든) 첫 번째 주사위 값이 x일 확률"로 일반화하면 다음과 같이 됩니다.

마찬가지로, "(첫 번째 주사위가 뭐든) 두 번째 주사위 y일 확률"은 첫 번째 주사위에 대해 가능한 모든 값의 확률의 합을 취하면 좋기 때문에,

가 됩니다. 이처럼 동시 확률이 주어졌을 때, 주목하지 않는 쪽의 확률변수가 취할 수 있는 모든 값에 대해 동시 확률을 계산하고 그 합을 취하는 것을 주변화(marginalization)라고 부르며, 결과적으로 얻는 확률을 주변 확률(marginal probability)이라고 합니다. 또한 주변 확률을 그 주목하고 있는 확률 변수가 취할 수 있는 모든 값에 대하여 나열하는 것을 주변 확률분포(marginal probability distribution)라고 합니다. 또한, 위의 예처럼 두 확률 변수의 동시 확률을 생각할 때, 취할 수 있는 모든 조합의 확률을 나열하는 것을 결합 분포(joint distribution)라고 합니다.

 

여기에서 2개의 주사위의 결합 분포표는 커져버리기 때문에 더 간단한 예로, 앞면이 나올 확률과 뒷면이 나올 확률이 다른 2개의 동전을 생각해 봅시다. 이 2개의 동전을 동시에 던질 때의 앞뒤 조합의 결합 분포가 다음과 같다고 합시다.

 

Y = 앞면

Y = 뒷면

X = 앞면

1 / 5

2 / 5

X = 뒷면

1 / 5

1 / 5

여기에서 첫 번째 동전의 양면을 나타내는 확률 변수를 X, 두 번째 동전의 양면을 나타내는 확률 변수를 Y로 하고 있습니다. 2개의 동전이 모두 앞면이 될 확률은 p(X=앞면,Y=앞면)=1/5 입니다.

 

그럼, 이 표 안의 숫자를 행별로 합계를 내 봅시다. 첫 번째 줄은

입니다. 이것은

(주석 3)을 계산하는 것이므로, 주변화에 의해 p(X=앞)라는 주변 확률을 추구하는 것과 동일합니다.

◇ 주석 3
y는 두 번째 동전이 취할 수 있는 상태로, 이 경우 '앞'과 '뒤'의 둘 중 하나.

 

마찬가지로, 첫 번째 열 값을 합계하여 보면, 이번에는

(주석 4)를 계산하는 것이므로, 주변화에 의해 P(Y=앞)이라는 주변 확률을 계산하는 것입니다.

◇ 주석 4
x는 첫 번째 동전이 취할 수 있는 상태로, 이 경우 '앞'과 '뒤'의 둘 중 하나.

 

이렇게 계산된 주변 확률을 위의 결합 분포의 표로 나타내 보겠습니다.

 

Y = 앞면

Y = 앞면

p(X)

X = 앞면

1 / 5

2 / 5

3 / 5

X = 뒷면

1 / 5

1 / 5

2 / 5

p(Y)

2 / 5

3 / 5

 

이처럼 주변 확률은 종종 동시 분포표로 기술됩니다.

 

 

[딥러닝 입문 5] 확률·통계의 기초(2/5)

5.4 조건부 확률 앞에서는 복수의 확률 변수를 동시에 고려하는 방법으로서 동시 확률 및 동시 분포 개념, 동시 확률과 하나하나의 확률 변수에 주목했을 때의 확률(주변 확률) 사이의 관계를 주

doooob.tistory.com

반응형