베이즈 정리

 

이번 글에서는 조건부 확률을 이용한 베이즈 정리의 개념에 대해 알아볼 것이다.

수학을 공부할 때 수식을 먼저 들이대는 것만큼 따분한 것은 없다.

간단한 예시를 통해 베이즈 정리가 무엇인지 감을 잡아보도록 하자.

일요병 자가 키트

여기 일요일에 무기력해지는 ‘일요병’의 양성 여부를 판정하는 자가 키트가 있다.

일요병 확진자가 해당 키트를 통해 양성 판정이 나온다면 실제 확진자일 확률이 80%라고 한다.

그런데 어떤 사람이 해당 키트를 통해 양성 판정을 받았다고 해서 80%의 확률로 일요병에 걸렸다고 이야기 할 수 있을까?

답은 No다..!

왜냐하면 우리가 알고 싶어하는 확률은 조건부 확률이 가진 의미와는 반대의 이야기이기 때문이다.

이해가 안 될 수 있으니 천천히 생각해보자.

먼저 “해당 키트의 양성 판정 정확도는 80%이다.”라는 의미를 생각해보자.

이는 일요병에 걸렸다는 전제(1) 하에 자가 키트 검사가 양성이 나온다면(2) 실제 코로나 확진자일 확률(3)이 80%라는 것이다.

하지만 우리가 알고 싶은 것은 반대의 이야기다.

자가 키트 검사 결과가 양성이라는 전제(1) 하에 자가 키트 검사가 양성이 나온다면(2) 실제 일요병 확진자일 확률(3)이 궁금한 것이다.

이렇게 보면 (1), (2)가 바뀐 것을 알 수 있다.

우리가 베이즈 정리에 대해 이해한다면 위 문제를 해결할 수 있다.

베이즈 정리 Bayes’s Rule

어떤 사건이 서로 배반하는 원인 둘에 의해 일어난다고 할 때 실제 사건이 일어났을 때 이것이 두 원인 중 하나일 확률을 구하는 정리를 베이즈의 정리라고 한다.

공식

이제 공식을 통해 조건부 확률과 무엇이 다른지, 왜 이런 공식이 나오게 되었는지에 대해 살펴보자.

\[P(A|B) = \frac{P(B|A) P(A)}{P(B)}\]
  • $P(A \mid B)$ : 사후 확률 posterior , 자가 키트 양성이라는 판정 하에 실제 확진인 확률
  • $P(A)$ : 사전 확률 prior, 실제 확진인 비율
  • $P(B \mid A)$: 실제 확진이라는 가정하에 자가 키트도 양성인 확률
  • $P(B)$: 자가 키트가 양성일 확률

증명

\[P(A|B) = \frac{P(A \cap B)}{P(B)} \rightarrow P(A \cap B) = P(A|B)P(B)\] \[P(B|A) = \frac{P(A \cap B)}{P(B)} \rightarrow P(A \cap B) = P(B|A)P(A)\] \[P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)\] \[\therefore P(A|B) = \frac{P(B|A) P(A)}{P(B)}\]

일요병 자가 키트 문제 풀이

이제 베이즈 정리에 대한 개념을 알게 되었으니 일요병 자가 키트 문제를 다시 해결해보자.

Q. 환자가 일요병에 걸린지 확인하는 자가 진단 키트가 있다. 일요병 확진자에게 자가 진단 키트를 한 결과 80%의 확률로 양성 반응을 보였다. 일요병에 걸린지 확인이 되지 않은 어떤 환자가 이 자가 진단 키트를 하여 양성 반응을 보였다면 이 환자가 그 병에 걸려 있을 확률은 얼마인가? 그대로 80%일까?

우선 환자가 실제로 일요병에 걸린 경우를 사건 $D$라고 하자. 그렇다면 일요병에 걸리지 않은 경우는 $D^C$가 된다.

자가 진단 키트 결과에서 양성 반응을 보인 경우를 사건 $S$라고 하면 음성 반응을 보인 결과는 사건 $S^C$다.

이를 베이즈 정리 공식에 대입한다면

\(P(D|S) = \frac{P(S|D) P(D)}{P(S)}\) 가 될 것이다.

현재는 $P(S)$, $P(D)$에 대한 정보는 없고 $P(S \mid D)$ 밖에 알지 못한다. $P(S)$, $P(D)$에 대한 정보도 알아야 $P(D \mid S)$를 알 수 있다.

추가적인 조사를 통해 일요병은 전체 인구 중 걸린 사람이 10%라는 사실과 일요병에 걸리지 않은 사람이 자가 진단 키트를 사용했을 때, 양성반응(잘못된 결과)가 나타날 확률이 5%라는 것을 알게 되었다.

지금까지 알아낸 정보를 정리하면 다음과 같다.

  • 병에 걸리는 경우 $P(D) = 0.1$
  • 병에 걸린 사람이 양성을 보이는 경우 $P(S \mid D) = 0.8$
  • 병에 걸리지 않은 사람이 양성을 보이는 경우 $P(S \mid D^C) = 0.05$
  • 양성을 보이는 경우 $P(S) = P(S \cap D) + P(S \cap D^C)$

이제 구해보자.

\[P(D|S) = \frac{P(S|D) P(D)}{P(S)}\] \[= \frac{P(S|D)P(D)}{P(S \cap D) + P(S \cap D^C)}\] \[= \frac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)P(D^C)}\] \[= \frac{0.8 * 0.1}{(0.8 * 0.1) + (0.05 * 0.9)} = 0.64\]

자가 진단 키트 결과 양성이 나온 사람들의 64%는 실제로 일요병에 걸렸다고 할 수 있다.