본문 바로가기
AI · 인공지능/알기쉬운 AI

[알기쉬운 AI - 10] AI의 발전적 기능: 자연어 처리와 강화학습, 이미지인식, 음성인식

by 두우우부 2019. 12. 8.
반응형

앞에서는 머신러닝의 기본원리를 알아봤습니다. 자동차에 비유하면 모터의 원리와 자동차가 움직이는 구조에 해당하는 부분입니다. 그럼 자동차를 사용하여 어떤 일들을 할 수 있을까요? 예를 들어, 사람이나 물건을 나르고, 공사를 돕거나 긴급한 사람을 돕는 등 다양한 일을 할 수 있습니다. 자동차와 마찬가지로 AI도 응용 범위가 다양합니다. 이번에는 AI 응용 범위를 일부 주요 분야별로 소개해 보겠습니다.

 

1. 이미지 분석, 이미지 인식에서 생성까지

AI가 이미지의 특징을 계산하여 분류 및 예측을 실시하는 것을 총칭하여 '이미지 분석'이라고 합니다. 그중에서도 자주 사용되는 것이 이미지 인식입니다. 이미지와 동영상에서 특징을 잡아 물체를 식별하는 패턴인식 기술의 하나입니다. 얼굴 인증이나 감시 카메라의 인물식별 기술이 이용되고 있습니다.

 

인간은 화상에 찍히는 것이 무엇인지, 지금까지의 경험에서 '이해'하고 판단할 수 있습니다. 그러나 컴퓨터는 이미지에 무엇이 담겨 있는지 '이해'할 수 없습니다.

 

그 대신, 많은 이미지 데이터에서 대상물의 특징을 학습시킴으로써 어느 이미지를 주었을 때에 물체가 무엇인지 "확률" 인식이 가능해집니다.

 

예를 들어, 자동 운전의 연구에 사용되는 인공지능은 자동차의 카메라를 사용해 운전자뿐만 아니라 행인과 마주 오는 차량을 식별할 수 있습니다. 또한 운전 중 인간의 시야에 들어오지 않는 행인과 장애물도 인지할 수 있습니다.

 

이미지를 다루는 다른 AI

 

그 외에도, 진짜와 구별이 어려운 가공의 얼굴을 생성하는 일을 하는 모델 "GAN"과 거친 모자이크 이미지를 원본에 가까운 수준으로 복원할 수 있는 "초해상"이라는 작업도 있습니다. 예를 들어 아래는 문자 "불"과 "물"같은 스타일(이미지)을 합성한 영상을 생성하는 ‘Style 변환 작업 GAN’ 이미지입니다.

 

또한 다음의 예는 무엇이 찍혀 있는지 전혀 모를 정도로 거친 모자이크 사진에서 원본에 가까운 이미지를 추정해 낼 수 있습니다. 흐린 보안 카메라의 이미지에서 사람의 얼굴과 번호판의 문자를 복원하거나 오래되고 낮은 해상도의 사진과 비디오를 최근의 장치에 맞도록 해상도를 높이는 등 응용성이 높은 기술입니다.

 

2. 자연 언어 처리 (NLP : Neuro Linguistic Programing)

자연 언어 처리(NLP)는 인간이 일상적으로 사용하는 자연 언어를 컴퓨터에 처리하는 일련의 기술을 말합니다.

 

2016 말경 Google번역기의 정밀도가 비약적으로 향상되어 큰 화제가 되었습니다.

 

그때까지 영어를 한국어로 번역하면 부자연스러운 문장이 나오는 일도 많았지만, 지금은 꽤 자연스러운 결과를 얻을 수 있게 되었습니다. 여기에는 딥러닝을 이용한 자연 언어 처리 연구성과가 깊이 관련되어 있습니다.

 

기존의 번역은 문장이 문장에 대응되도록 하여 번역하고 있습니다만, 딥러닝을 이용한 번역은 전체적으로 어느 정도 의미만 통하면 문장과 문장의 대응에는 크게 신경 쓰지 않습니다.

 

그러나 자연 언어 처리라고 해도, 학습한 데이터가 ‘말’뿐이라면 사람이 떠올리는 것처럼 언어의 배경에 깔린 이미지까지 습득하는 것은 불가능합니다. ‘말’이라는 것은 인간의 머릿속 이미지를 표현한 '기호의 세계'이기 때문입니다.

 

일반적으로 일련의 NLP작업은 언어를 짧은 기본 요소로 분해한 다음, 각 요소 관계의 이해를 시도하고, 요소 전체가 어떻게 연계되어 의미를 표현하고 있는지 탐색합니다.

 

NLP에 의하면 컴퓨터가 인간의 말로 인간과 소통하는 것도 가능하고, 언어 관련 작업 처리량을 비약적으로 확장시키는 것을 가능케 합니다. 예를 들면, NLP를 장착한 컴퓨터는 텍스트를 읽고 해석할 뿐만 아니라 감정을 미루어 측정하고, 어떤 부분이 중요한지 판단하고 긴 문장을 요약하는 등 다양한 작업을 수행할 수 있습니다.

 

3. 음성 인식

음성 인식은 최근 스마트폰의 표준 기능이기도 합니다. Siri, Alexa, Google 어시스턴트 등 친숙하신 분들도 많으실 겁니다.

 

한마디로 말하면 음성인식은 음성정보와 언어정보를 긴밀하게 결합하여 인간의 말을 컴퓨터에게 인식시키는 기술입니다. 원래 인간의 목소리는 공기의 진동 패턴입니다. 음성 인식의 목표는 컴퓨터가 진동의 물리적 현상을 읽고 진동에 담긴 인간의 뜻을 해석해내는 것입니다.

 

일반적으로 키보드와 마우스를 대체하는 새로운 조작 방법으로 연구가 진행되고 있으며, 지금까지의 음성 인식에서는 불가능했던 다양한 작업이 가능해졌습니다.

 

스마트 스피커에 의한 음성 대화, 가전제어 등이 실용화되고 있으며, 최근에는 AI 음성 인식에 의해 회의록 작성을 자동으로 해주는 도구도 등장하고 있습니다. 미래는 키보드와 마우스 없이 음성만으로 모든 장치의 조작이 가능한 시대가 될지도 모릅니다.

반응형