여러분은 성격 진단을 해보신 적 있나요? 두 가지 선택지에 답변을 반복함으로 몇 가지 성격으로 분류되는 것을 경험해 보셨을 것입니다. 사실 데이터의 취급방법 중에서도 이렇게 조건을 반복하기만 해도 데이터를 처리할 수 있는 방법이 있습니다. 의사결정 트리(decision tree)라는 방법입니다.
진짜 조건 분기 만으로 데이터 취급이 가능할까?라는 의심이 드시겠지만 이 방법은 조건에 따라서는 꽤 좋은 정밀도를 갖고 있어서 현재는 재료과학 분야에서 이용되고 있기도 합니다. 그럼 얼마나 좋은지 살펴보도록 합시다.
1. 이 나무는 무슨 나무? : 회귀 트리
앞에서 AI가 해결할 수 있는 문제는 '분류'와 '회귀'로 크게 나뉜다고 했습니다만, 의사결정 트리는 양쪽 모두 사용할 수 있습니다. 우선 회귀를 살펴봅시다. 회귀는 점의 집합으로부터 알맞은 선을 찾아내는 방법이었습니다. 의사결정 트리는 조건문을 이용하여 선을 그어갑니다.
조건 분기에 의해 위처럼 계단 같은 선이 그려집니다. 그리고 이 선과 점 사이의 거리가 최대한 짧아지도록 조건 분기 횟수를 바꾸어 가는 것입니다. 예로, 위의 선보다는 아래처럼 오른쪽으로 조건 분기점이 치우쳐 있는 것이 더 좋은 회귀가 될 것 같습니다.
완성된 선은 삐뚤빼뚤 하지만, 이 선만 있으면 'x가 이 범위 안에 있으면 y는 이 값이다'라고 말할 수 있습니다. 위 그림과 같이 조건 분기를 도식화하며 가지를 뻗어가며 그리기 때문에 결정 트리라는 이름이 붙어있어, 특히 회귀분석에 사용되는 경우 회귀 트리로 불리기도 합니다.
2. 그룹 분류에는 분류 트리
그럼, 다음으로 분류의 경우를 살펴보고자 합니다. 분류의 경우에는 데이터를 여러 그룹으로 나누어 갑니다. 예로 아래 데이터를 보세요. x1과 x2라는 파라미터를 갖는 데이터가 흩어져 있습니다. 분류를 위해서 먼저 x1이 0.3보다 큰가 작은가로 데이터를 나눕니다. 그 후 0.3 이상인 데이터를 x2가 분류합니다. 이제 훌륭하게 경계선이 그어졌습니다.
물론 사람이 직접 선을 긋는 것은 아니고, 이 분류의 정확도가 좋아지도록 분류 경곗값을 계산하여 학습을 시킵니다. 이 조건 분기를 그림으로 표현하면 아래와 같습니다. 이렇게 분류에 사용되기 때문에 분류 트리라고 부르기도 합니다.
이러한 결과를 보면 회귀는 연속 값인데 비해 그어진 선은 띄엄띄엄 애매합니다. 분류도 마찬가지로 나눠진 공간영역은 널찍하니 그냥 사각형입니다. 이렇게 단순하고 엉성하게 보이는 의사결정 트리지만, 큰 장점이 하나 있습니다. 그것은 바로 의미를 알기 쉽다는 점입니다. 즉 해석 가능성(가독성)입니다. 앞에서 소개했던 신경망은 그 정밀도가 높아서 현재 주류를 이루고 있지만, 본질적으로 '왜 그 회귀를 했는가', '왜 그렇게 분류한 것인가'라는 질문에 잘 설명할 수 없어서, 해석 가능성이 낮은 것이 문제입니다.
한편, 결정 트리를 사용한 기술 분석은 단순 조건문에 불과하기 때문에 '〇〇이상의 수치를 가진 것은 ××로 분류된다'처럼 그 의미를 해석하기가 용이합니다. 이 해석 가능성이 중요시되는 현장에서는 이 결정 트리가 중요한 방법론이 될 것입니다.
3. 의사결정 트리를 재료과학에 사용
열전 재료(thermoelectric material) 개발에 사용된 예를 살펴봅시다. 열전 재료는 "열을 전기로 바꾸는 물질"입니다. 장시간 PC나 휴대전화를 사용하고 있으면 열이 발생하는 경우가 종종 있습니다만, 이 열전 재료가 있으면 그 낭비되는 열 에너지를 전기 에너지로 바꿀 수 있습니다.
특히 주목받고 있는 열전 재료로 스핀 열전 재료가 있습니다. 이것은 스핀이라는 자석과 관련된 물질의 성질을 이용하는 것입니다만, 그 복잡성에서 고려해야 할 조건 항목(파라미터)이 매우 많은 데다 그 결정구조 패턴이 무수히 존재하기 때문에 가장 효율적으로 전기를 만드는 물질을 찾기가 쉽지 않습니다.
그래서 '어떤 조건에서 가장 효율 좋은 물질을 만들 수 있는가'라는 답을 찾기 위해 결정 트리를 사용합니다.
참고로 한 논문에서 중요한 4가지 조건, Δa(결정격자 불일치), (희토류 원소의 분자량), (스핀 자기 모멘트), LR(기동 자기 모멘트)에 주목해 결정 트리로 잘 분류를 했습니다. 아래 그림을 보십시오.
노드(사각형) 안의 숫자가 효율에 해당하는 량(열기를 전력으로 변환)이며 오른쪽으로 갈수록 그 값이 커지는 것을 알 수 있습니다. 각 분기점에 최적화된 조건 분기 규칙이 적혀 있고(등) 이 조건을 충족하도록 물질을 찾아가면 된다는 지침을 얻을 수 있습니다. 자세한 내용은 논문을 참조하세요.
이렇게 단순한 조건 분기 만으로 만들어진 결정 트리지만, 그 해석 가능성의 효율면에서 때에 따라 아주 유용하다는 것을 잘 아셨을 것입니다. 세상에는 이렇게 심플하고 단순함에도 불구하고 제한된 상황에서 매우 강한 힘을 발휘하는 기술이 많이 있습니다.
'AI · 인공지능 > 알기쉬운 AI' 카테고리의 다른 글
[알기쉬운 AI - 18] 계층 신경망 (0) | 2020.02.05 |
---|---|
[알기쉬운 AI - 17] 기계 학습 방법 (0) | 2020.02.04 |
[알기쉬운 AI - 16] 기계 학습 라이브러리 (0) | 2020.02.03 |
[알기쉬운 AI - 15] AI 관련 기술 전체상(Overview)과 하드웨어 (0) | 2020.02.02 |
[알기쉬운 AI - 13] 향후 매출을 예측하고 싶다! '회귀분석'이란? (0) | 2019.12.25 |
[알기쉬운 AI - 12] 특징으로 데이터 분류, '서포트벡터머신'이란? (0) | 2019.12.24 |
[알기쉬운 AI - 11] 그룹에서 당신은 어떤 타입? '클러스터링'이란? (0) | 2019.12.23 |
[알기쉬운 AI - 10] AI의 발전적 기능: 자연어 처리와 강화학습, 이미지인식, 음성인식 (0) | 2019.12.08 |