신경망의 내용을 분할하여 AI의 동작을 분석 · 제어하는 시도가 성공, 뉴런 단위가 아닌 '특징' 단위로 정리하는 것이 포인트

Google과 Amazon이 투자하는 AI 스타트업 Anthropic의 연구팀이 뉴럴 네트워크가 어떻게 언어나 이미지를 다루는지 밝혀내는 연구에서 개별 뉴런을 「특징(features)」이라는 단위로 정리하면 뉴럴 네트워크의 내용을 해석하기 쉬워진다는 연구 결과를 발표했습니다.

Anthropic\Decomposing Language Models Into Understandable Components
https://www.anthropic.com/index/decomposing-language-models-into-understandable-components

대규모 언어 모델은 다수의 뉴런이 연결된 신경망으로, 규칙 기반으로 프로그래밍되는 것이 아니라, 다수의 데이터를 바탕으로 트레이닝을 실시하는 것으로 태스크를 능숙하게 해내는 능력을 익히고 있습니다. 그러나 개별적인 간단한 계산을 수행하는 여러 뉴런이 모이면 왜 언어와 이미지를 처리할 수 있는지는 알 수 없으며, 모델에서 문제가 발견되었을 때의 수정 방법을 파악하거나 모델의 안전성을 증명하기가 어렵습니다.

Anthropic의 연구팀은 먼저 개별 뉴런의 동작에 대해 조사를 실시했지만, 뉴런 하나하나와 네트워크 전체의 동작 사이에 특별한 관계를 찾을 수 없었다고 합니다. 예를 들어, 아래 그림 왼쪽에서는 83번 뉴런이 한국어나 인용문, HTTP요청, 대화문 등 다양하게 활성화된 것을 알 수 있습니다.

Anthropic의 연구팀은 2023년 10월 4일에 발표한 논문 「Towards Monosemanticity: Decomposing Language Models With Dictionary Learning(단일 의미성을 목표로: 사전 학습에 의한 언어 모델의 분해)」에서 개별 뉴런보다 우수한 분석 단위가 존재한다고 밝혔습니다. 연구팀은 새로운 분석 단위를 「특징(features)」라고 명명하고 있으며, 작은 트랜스포머 모델을 '특징'으로 분해하는 기구도 개발했다는 것.

MLP 활성(분해가 불가피한 Activations)을 가져와 '특징'으로 분해하는 것이 목표

아래 그림은 트랜스포머 언어 모델의 512개 뉴런을 포함하는 레이어를 4096개의 '특징'으로 분해한 그림입니다. 「법률 문장에 반응하는 특징」, 「DNA 시퀀스에 반응하는 특징」등, 개개의 뉴런만 보는 경우보다 더 다양한 기능의 실현에 관여하는 부분을 잘 나타낼 수 있습니다.

아래 그림은 「개별 뉴런의 경우」와 「특징으로 분해한 경우」의 각각에 대해, 인간에게 「해석 가능성」을 평가받는 블라인드 테스트를 실시한 결과입니다. 녹색으로 표시된 '개별 뉴런의 경우'에는 거의 0점에 집중된 반면, 적색의 '특징으로 분해한 경우'는 고득점을 획득했습니다.

또한 '특징'의 값을 높은 수치로 고정하여 일관된 텍스트를 생성할 수 있습니다.

모델의 해석 가능성을 향상함으로써, 최종적으로 모델의 동작을 내부로부터 감시 · 제어하는 것이 가능하게 되어, 사회나 기업에서의 채용에 필수 불가결한 안전성과 신뢰성을 확보할 수 있다는 것입니다.

Anthropic은 이번 소규모 실증 모델에 이어서 몇 배는 더 크고 복잡한 모델로 스케일 업하는 작업에 임할 예정이라고 합니다.

[알기쉬운 AI - 34] 설명 가능한 AI(XAI : Explainable AI) 1 - AI의 예측에 근거는 필요한가?

[알기쉬운 AI - 34] 설명 가능한 AI(XAI : Explainable AI) 1 - AI의 예측에 근거는 필요한가?

설명 가능한 AI( Explainable AI, 이후 XAI )라는 단어를 들어 보신 적 있습니까? XAI는 AI 예측의 근거를 예측과 함께 출력하는 AI입니다. 특히 최근 주목을 받고 있는 심층 학습이 대두된 후 XAI의 중요성

doooob.tistory.com

저작자표시 비영리 변경금지

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

디즈니는 '로키' 프로모션 비주얼에 AI 제작 콘텐츠를 사용했다는 지적 (0)	2023.10.11
Microsoft는 GitHub Copilot 사용자 1인당 월 3만원 가까이 손실을 내고 있다 (0)	2023.10.11
AI로 탭을 자동으로 정리하는 Google 크롬의 새로운 기능 '탭 정리'가 등장할 가능성 (1)	2023.10.11
ChatGPT가 월 수익 61억 원에 도달했어도, 그 성장은 둔화 (0)	2023.10.11
구글이 의료 관계자용 「Vertex AI Search」 의 새로운 기능을 발표 (0)	2023.10.11
Stabilty.AI가 환경 친화적이고 효율적인 30억 파라미터 대규모 언어 모델 「Stable LM 3B」 를 발표 (0)	2023.10.11
손정의가 AGI(범용 AI)의 실현은 10년 후라고 상정 (0)	2023.10.10
「헤이 Meta!」 음성 커맨드로 통화 및 촬영 「Ray-Ban \| Meta」 차세대 스마트 글라스 (0)	2023.10.10

두우우부

신경망의 내용을 분할하여 AI의 동작을 분석 · 제어하는 시도가 성공, 뉴런 단위가 아닌 '특징' 단위로 정리하는 것이 포인트

관련글

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바