한 그룹에서 어떤 특징을 가지고 멤버를 식별하는 분류 문제에서는 혼합 행렬로부터 산출되는 각종 지표가 성능 평가에 사용됩니다. 이러한 지표에는 재현율(recall)과 적합률(precision)이라는 것이 있는데, 그 산출법에 대해 알아봐도 좀처럼 의미가 와닿지 않습니다. 그래서 Prabhat 씨는 분류 문제를 영화 '맨 인 블랙'에 비유하여 재현율과 적합률의 의미를 이해하기 쉽도록 설명하고 있습니다.
예를 들면 핼러윈 파티 속에 인간으로 변장한 외계인들이 섞여 있고, 그러한 외계인을 식별하는 능력을 평가하는 경우 재현율과 적합률은 다음 표와 같이 설명할 수 있습니다.
외계인 검출 문제에 있어서 재현율과 적합률의 장단점
재현율 | 적합률 | |
지표의 의미 | 가능한 많은 외계인을 찾는 능력을 측정 | 외계인으로 잘못 찾는 수를 줄이는 능력을 측정 |
장점 | 많은 외계인을 찾아낸다 | 실수로 인간을 잡는 일이 줄어든다 |
단점 | 외계인이라 착각하고 잡아내는 사람이 많아진다 | 많은 외계인을 놓칠 가능성이 있다 |
현실 세계에서의 활용 사례 |
온라인 거래의 사기 감지 | 대출 상환 불이행자의 예측 |
(뉴럴라이저를 사용하지 않으면) 잊어버리기 힘든 설명
당신이 어떨지는 모르겠지만, 제가 재현율과 적합률의 개념에 마주치면, 그 당시에는 완전히 이해하고 있습니다만... 그다음 날엔 갑자기 설명하기가 어려워집니다. 마치 뉴럴라이저(※ 영화 '맨 인 블랙'에서 외계인 목격자의 기억을 지울 때 사용되는 장치)를 사용하듯이, 기억에서 사라져 버립니다.
그래서 윌 스미스가 어린 소녀를 공격해 MIB 시험에 합격하는 장면에서 힌트를 얻어 재현율과 적합률의 개념을 알기 쉽게 설명해 보았습니다.
0. 실행 예
당신은 인간으로 변장한 외계인들로부터 인류를 보호하는 비밀 기관, 맨 인 블랙의 요원이라고 합시다. 당신은 어떤 핼러윈 파티에 외계인이 침입했다는 정보를 얻었습니다. 당신의 임무는 변장한 외계인을 특정하여 잡는 것입니다.
기계 학습의 용어로 말하면 이 임무는 외계인의 식별 / 분류 문제입니다. 실제 인간과 인간으로 분장한 외계인의 데이터 집합이 주어졌을 때, 외계인을 식별하고자 하는 문제입니다.
당신은 동료 요원과 함께 파티에 가서 외계인으로 의심되는 사람들을 사로잡습니다. 제대로 식별한 사람도 있고, 잘못 식별한 사람도 있습니다. 여기에서 인간으로 분장한 외계인을 식별하는 능력을 재현율과 적합률을 이용하여 평가해 봅시다.
1. 재현율( Recall )
인간으로 분장한 외계인 중 몇이나 올바르게 인식할 수 있었을까?
1.1 🥱 지루한 정의
1.2 👽 재밌는 정의
파티에 잠입하여 누가 외계인이고 누가 인간인지를 판단할 때, 외계인을 제대로 식별할 수도 있는 반면, 인간이라고 착각해서 놓친 외계인도 있습니다. 재현율은 실제로 외계인이 변장하고 있던 인간들 속에서 얼마나 정확하게 외계인을 골라냈는지를 나타내는 지표입니다. 이 지표는 외계인을 파티장에서 놓치지 않은 정도를 나타내는 척도라 할 수 있겠습니다.
1.3 📈 재현율이 높은 것은 무엇을 의미하는가?
재현율이 높다는 것은 변장한 외계인을 인간으로 오판한 것이 적었다는 것을 의미합니다.
재현율이 높으면, 역으로 너무 많은 사람을 위장한 외계인으로 판단해 버리는 일이 생기게 됩니다. 파티에 참석했던 모든 사람을 외계인으로 판정하면 재현율은 만점이 될지도 모릅니다. 그러므로 당신이 잡은 실제 인간들 중에서는 불필요한 심문을 받는 것을 달가워하지 않을 수도 있습니다. 그러나 실제 외계인을 가능한 많이 잡는 것을 우선시하여, 실수로 인간을 잡아들이는 것을 별로 신경 쓰지 않는다면, 재현율은 당신에게 딱 맞는 지표가 될 것입니다. 마지막으로 (잘못 잡은) 인간에게 혼날지도 모르지만, 그들은 안전한 인간인 것입니다!
(※ 예시) 재현율 100%의 사례로 파티의 참가자가 100명이고, 그중 인간으로 변장한 외계인이 30명, 실제 인간이 70명이라 가정하여 100명 전원을 체크하고 그 모두를 외계인으로 예측했다면 다음과 같은 혼합 행렬을 얻을 수 있습니다.
파티 참가자 100명(외계인 30명 / 인간 70명)의 재현율 100%의 혼합 행렬
외계인 (예측 값) | 인간 (예측 값) | |
외계인 (실제 값) | 30 | 0 |
인간 (실제 값) | 70 | 0 |
이상에서는 재현율은 100%인 반면에 위양성(false positive)은 70입니다. 즉, 외계인을 모두 잡은 반면, 외계인으로 착각한 사람이 70명이나 되는 것입니다.
1.4 📉 재현율이 낮은 것은 무엇을 의미하는가?
반대로, 재현율이 낮으면 실제 외계인을 골라내는 능력이 낮았다는 것을 의미합니다. 더 훈련을 받는 편이 좋을 것입니다.
1.5 💵 (돈이 달린) 의미 있는 현실세계의 사례
온라인 거래 분야에서 부정행위를 감지하기 위한 시나리오에서 높은 재현율이 요구될 수 있습니다. 일부 정상 거래를 부정으로 간주해 버릴 수도 있지만, 재현율이 높으면 부정 거래의 대부분을 포착하는 것이 더 확실해집니다. 고객 중에는 자신의 거래가 불법으로 간주되어 불만을 느끼는 사람도 있을지 모르지만, 고객과 회사가 부당한 손실을 입을 가능성은 낮아집니다.
2. 적합률( Precision )
당신이 외계인이라고 생각한 인간 속에서 실제로 인간으로 둔갑한 외계인은 몇입니까?
2.1 🥱 지루한 정의
2.2 👽 재밌는 정의
외계인이라고 생각하고 인간들을 특정하여 체포한 경우, 그 속에는 무고한 사람들이 존재합니다. 적합률은 외계인이라고 생각했던 사람 중에서 실제로 외계인이었던 사람이 몇 명이나 되는지를 나타내는 지표입니다. 이 지표는 실제 인간을 오판하여 외계인으로 인식하지 않도록 하는 능력치를 나타내는 척도라 할 수 있습니다.
2.3 📈 적합률이 높은 것은 무엇을 의미하는가?
적합률이 높았다는 것은, 실제 인간이 외계인으로 오인되는 경우가 적었다는 것을 의미합니다.
외계인이라고 생각한 사람을 한 명만 특정하여 포획했을 때, 실제로 그 사람이 변장한 외계인이었을 경우, 수치적 적합률은 완벽합니다. 단점은 변장한 많은 외계인들이 파티에서 도망쳐 버릴지도 모를 일입니다. 그러나 MIB가 비밀 기관임을 잊어서는 안 됩니다. 실제 인간을 잘못 체포한 후 MIB의 기밀성, 또는 외계인이 변장하고 우리 속에 숨어 산다는 비밀을 노출하고 싶지 않다고 당신은 생각할 것입니다. 이러한 시나리오에서는 적합률이 준수해야 할 기준이 됩니다.
2.4 📉 적합률이 낮은 것은 무엇을 의미하는가?
반대로 적합률이 낮으면 외계인인 줄 알고 인간을 너무 많이 잡아버릴 가능성이 있습니다. 그런 경우에는 뉴럴라이저를 사용하여 기억을 지울 수밖에 없습니다.
2.5 💵 (돈이 달린) 의미 있는 현실 세계의 사례
은행에서는 대출 상환 불이행자를 특정하는 문제에 높은 적합률이 요구됩니다. 실수로 많은 고객을 대출 상환 불이행자로 특정해 버리면 은행은 충분한 수의 사람들에게 돈을 빌려줄 수 없게 됩니다. 그렇게 되면 은행의 이자수익은 감소하게 되고, 결국 은행의 수익률은 떨어지게 됩니다.
3. F 값( F1 Score )
적합률과 재현율을 모두 중시하고 있기 때문에 그 균형을 원한다 - MIB의 보스
금년도 얼마 안 남았다고 쳐 봅시다. 즉, 상사에 의한 연말 실적 평가의 시기입니다. 연말 보너스를 공평하게 지급하기 위해, 상사는 MIB의 모든 에이전트들의 능력을 MIB의 목표와 대조할 필요가 있습니다. 이 목표는 2가지가 있습니다. MIB는 외계인 포획에 성공해야 하지만, 동시에 외계인의 존재가 세계에 알려지지 않게 비밀을 지켜야 합니다. 당신의 상사는 적합률과 재현율 중 어느 쪽을 사용할까요?
하나의 솔루션으로 F 값(F1 스코어라고도 부릅니다)을 사용하는 것을 생각할 수 있습니다. F 값은 적합률과 재현율의 균형을 잡는 데 도움이 됩니다.
F 값은 적합률과 재현율의 조화 평균이다.
4. 간단명료하게 정답률만을 추구하면 되는 게 아닌가요?
그렇게 말하고 싶은 기분은 압니다. 저도 기계 학습의 단순함을 사랑하지만, 어떤 문제에서 분류기의 성능을 측정하는 지표로 정답률을 사용하는 것은 현명하지 않을지도 모릅니다. 아시다시피, 분류 멤버가 불균형인 문제에 대해 이야기하고 있습니다.
예를 들어, 위의 핼러윈 파티에 100명의 참가자가 있고, 그 중 5명만이 변장한 외계인이라고 했을 때, 당신은 100명 전원을 인간으로 판정하여 95%의 정답률을 얻을 수 있었지만, F 값이 높은 동료 에이전트가 MIB의 핵심 목표 달성에 기여하고 있었을 경우, 연말에 좋은 보너스를 얻을 수는 없는 것입니다.(※ 역주 1). 따라서 적합률, 재현율, F 값을 고려하는 것이 분류 성능을 측정하기 위해 실행 가능한 대안이 되는 것입니다.
(※ 역주 1) 위처럼 분류 멤버가 불균형인 사례에 있어서 100명 전원을 인간으로 식별한 경우 다음과 같은 혼합 행렬을 얻을 수 있습니다.
파티 참가자 100명(외계인 5명 / 인간 95명)에 대한 정답률 95%의 혼합 행렬
외계인 (예측치) | 인간 (예측치) | |
외계인 (실제 값) | 0 | 5 |
인간 (실제 값) | 0 | 95 |
위를 보면, 재현율이 0%, 즉 외계인을 전혀 검출하지 못했음에도 불구하고 정답률이 95%로 나타나고 있습니다.
5. 정리
- 분류 멤버 수가 불균형인 경우 정답률보다 적합률, 재현율, F 값에 의한 평가가 현명한 선택이다.
- 재현율은 가능한 많은 케이스를 발견하는 것을 중시하는 경우에 사용한다.
- 적합률을 사용하는 것은, 자신이 양성이라고 판단한 사례가 맞는지를 중시하는 경우이다.
저자 : Aishwarya Prabhat
원문
"Precision & Recall : Explained by Men In Black"
'AI · 인공지능 > AI 칼럼' 카테고리의 다른 글
「Data-centric AI Resource Hub」가 밝히는 데이터 정비 노하우 (0) | 2022.09.03 |
---|---|
새로운 AI 개발 사상「데이터 중심의 AI」입문 (0) | 2022.08.31 |
왜 AI는 언어와 예술 분야에서 빠르게 진화하는가? (0) | 2022.08.27 |
AI 엔지니어의 장래성과 그만두는 이유 5가지 (0) | 2022.08.13 |
해석 가능한 머신러닝(Interpretable Machine Learning) 번역본 (0) | 2021.06.06 |
Kaggle 그랜드 마스터에게 들어 봤다 (0) | 2021.03.03 |
누가 NeurIPS 2020에서 AI 연구를 선도하는가?(후편) (0) | 2021.02.02 |
누가 NeurIPS 2020에서 AI 연구를 선도하는가?(전편) (0) | 2021.02.01 |