본문 바로가기
AI · 인공지능/AI 뉴스

신경망의 내용을 분할하여 AI의 동작을 분석 · 제어하는 시도가 성공, 뉴런 단위가 아닌 '특징' 단위로 정리하는 것이 포인트

by 두우우부 2023. 10. 11.
반응형

 
Google과 Amazon이 투자하는 AI 스타트업 Anthropic의 연구팀이 뉴럴 네트워크가 어떻게 언어나 이미지를 다루는지 밝혀내는 연구에서 개별 뉴런을 「특징(features)」이라는 단위로 정리하면 뉴럴 네트워크의 내용을 해석하기 쉬워진다는 연구 결과를 발표했습니다.

Anthropic\Decomposing Language Models Into Understandable Components
https://www.anthropic.com/index/decomposing-language-models-into-understandable-components


대규모 언어 모델은 다수의 뉴런이 연결된 신경망으로, 규칙 기반으로 프로그래밍되는 것이 아니라, 다수의 데이터를 바탕으로 트레이닝을 실시하는 것으로 태스크를 능숙하게 해내는 능력을 익히고 있습니다. 그러나 개별적인 간단한 계산을 수행하는 여러 뉴런이 모이면 왜 언어와 이미지를 처리할 수 있는지는 알 수 없으며, 모델에서 문제가 발견되었을 때의 수정 방법을 파악하거나 모델의 안전성을 증명하기가 어렵습니다.

Anthropic의 연구팀은 먼저 개별 뉴런의 동작에 대해 조사를 실시했지만, 뉴런 하나하나와 네트워크 전체의 동작 사이에 특별한 관계를 찾을 수 없었다고 합니다. 예를 들어, 아래 그림 왼쪽에서는 83번 뉴런이 한국어나 인용문, HTTP요청, 대화문 등 다양하게 활성화된 것을 알 수 있습니다.



Anthropic의 연구팀은 2023년 10월 4일에 발표한 논문 「Towards Monosemanticity: Decomposing Language Models With Dictionary Learning(단일 의미성을 목표로: 사전 학습에 의한 언어 모델의 분해)」에서 개별 뉴런보다 우수한 분석 단위가 존재한다고 밝혔습니다. 연구팀은 새로운 분석 단위를 「특징(features)」라고 명명하고 있으며, 작은 트랜스포머 모델을 '특징'으로 분해하는 기구도 개발했다는 것.

MLP 활성(분해가 불가피한 Activations)을 가져와 '특징'으로 분해하는 것이 목표



아래 그림은 트랜스포머 언어 모델의 512개 뉴런을 포함하는 레이어를 4096개의 '특징'으로 분해한 그림입니다. 「법률 문장에 반응하는 특징」, 「DNA 시퀀스에 반응하는 특징」등, 개개의 뉴런만 보는 경우보다 더 다양한 기능의 실현에 관여하는 부분을 잘 나타낼 수 있습니다.



아래 그림은 「개별 뉴런의 경우」와 「특징으로 분해한 경우」의 각각에 대해, 인간에게 「해석 가능성」을 평가받는 블라인드 테스트를 실시한 결과입니다. 녹색으로 표시된 '개별 뉴런의 경우'에는 거의 0점에 집중된 반면, 적색의 '특징으로 분해한 경우'는 고득점을 획득했습니다.



또한 '특징'의 값을 높은 수치로 고정하여 일관된 텍스트를 생성할 수 있습니다.



모델의 해석 가능성을 향상함으로써, 최종적으로 모델의 동작을 내부로부터 감시 · 제어하는 것이 가능하게 되어, 사회나 기업에서의 채용에 필수 불가결한 안전성과 신뢰성을 확보할 수 있다는 것입니다.

Anthropic은 이번 소규모 실증 모델에 이어서 몇 배는 더 크고 복잡한 모델로 스케일 업하는 작업에 임할 예정이라고 합니다.

관련글

[알기쉬운 AI - 34] 설명 가능한 AI(XAI : Explainable AI) 1 - AI의 예측에 근거는 필요한가?

[알기쉬운 AI - 34] 설명 가능한 AI(XAI : Explainable AI) 1 - AI의 예측에 근거는 필요한가?

설명 가능한 AI( Explainable AI, 이후 XAI )라는 단어를 들어 보신 적 있습니까? XAI는 AI 예측의 근거를 예측과 함께 출력하는 AI입니다. 특히 최근 주목을 받고 있는 심층 학습이 대두된 후 XAI의 중요성

doooob.tistory.com

반응형