본문 바로가기
AI · 인공지능/AI 뉴스

OpenAI가 "언어 모델에게 언어 모델을 설명"시키는 데모 툴을 공개

by 두우우부 2023. 5. 10.
반응형

ChatGPT와 같은 대규모 언어 모델(LLM)은 동작 구조를 알기 어려우므로 '블랙박스'라고 하는 경우가 많으며, AI의 위험성과 예측의 어려움을 주장하는 논의에 박차를 가하고 있습니다. LLM(Large Language Model)의 이해를 돕기 위해 OpenAI는 LLM을 사용하여 LLM의 기능을 설명하는 도구를 공개했습니다.

OpenAI’s new tool attempts to explain language models' behaviors | TechCrunch

OpenAI's new tool attempts to explain language models' behaviors

OpenAI has developed a tool that attempts to automate the analysis of large language models like GPT-4 and ChatGPT.

techcrunch.com



LLM은 뇌와 비슷한 '뉴런'으로 구성하는 것을 전제하고 있습니다. 예를 들어 "Marvel Comic"과 관련된 텍스트 시퀀스를 실행하면 Marvel Comics에 등장하는 영웅에 대한 뉴런이 활성화되어 영웅과 관련 단어가 출력될 가능성이 높습니다. 또한 이 데모에서는 최신 모델인 GPT-4를 이용하여 GPT-2의 동작을 평가하고 있습니다.


Language models can explain neurons in language models
https://openai.com/research/language-models-can-explain-neurons-in-language-models


OpenAI가 공개한 이 링크에는 '마블 만화'를 포함하여 총 12개의 텍스트 샘플이 준비되어 있습니다.



GPT-2의 출력과 뉴런의 활성이 나타나면 이것을 GPT-4에게 보여주고 설명을 생성시킵니다. 앞서 언급한 '마블 코믹'의 텍스트 시퀀스 결과에 대해 GPT-4는 '영화, 캐릭터, 엔터테인먼트에 대한 언급'이라는 설명을 부여했습니다.



그런 다음, GPT-4가 설명한 내용의 정확성을 판단하기 위해 GPT-4에도 텍스트 시퀀스를 제공하여 뉴런의 움직임을 시뮬레이션합니다.



그리고 시뮬레이션된 뉴런의 활성(상단)과 실제 뉴런의 활성(하단)을 비교하여 채점합니다. 이번 점수는 '0.34'였습니다.



12개 샘플 중에서, 점수는 '0.01'에서 '0.86'까지 차이가 있었습니다.



OpenAI의 Jeff Wu 씨는 "이 방법을 사용하면 기본적으로 모든 뉴런에 대해 무엇을 하고 있는지에 대한 사전 설명을 자연 언어로 도출합니다. 그 설명이 실제 행동과 얼마나 일치하는지 점수를 얻을 수 있습니다."라고 말했습니다.

실제로 이런 방식으로 Wu 씨는 GPT-2의 30만 7,200개의 뉴런 모두에 대한 설명을 생성할 수 있었습니다. 이러한 툴은 AI의 편향과 유해성을 줄이는 등 LLM의 성능을 향상하는 데 사용할 수 있을 것이라고 연구자들은 기대하고 있습니다.

그러나 그것이 눈에 보이는 형태로 도움이 되기 위해서는 아직 갈 길이 먼 것도 사실입니다. 이번 예에서는, 30만 7,200개의 뉴런의 설명 가운데, 확신을 가지고 설명할 수 있었다고 말할 수 있는 것은 약 1,000개에 지나지 않았다고 합니다.

Wu 씨는 "설명의 대부분은 점수가 매우 낮거나 실제 뉴런의 거동을 설명할 수 없었습니다. 예를 들어, 5 ~ 6개의 상이한 부분에 대해 활성화할 때의 패턴을 찾을 수 없는 상태입니다. 또한, 식별 가능한 패턴이 있더라도 GPT-4에서는 그것을 찾을 수 없는 경우도 있었습니다."라고 말했습니다.



GPT-2조차 이해하기 어려운 경우 더 복잡하고 규모가 큰 LLM과 수시로 인터넷에서 정보를 얻을 수 있는 모델을 이해하는 것은 더욱 어렵습니다. 그러나 후자의 경우 인터넷을 열람할 수 있어도 기본적인 메커니즘은 그다지 변하지 않는다고 Wu 씨는 생각하고 있습니다. 왜냐하면 그 뉴런이 왜 특정 검색어로 검색했는지, 왜 특정 사이트에 액세스 했는지 보기 위해서 약간의 손만 데면 되기 때문입니다.

Wu 씨는 "이번에 공개한 툴을 통해 제삼자가 구축하고 공헌할 수 있는 자동화된 방식으로 해석가능성을 다루는 데 있어서 유망한 길을 열 수 있기를 바랍니다. 궁극적으로 뉴런이 무엇에 반응하는지 뿐만 아니라 그 모델의 전체적인 동작, 즉 '어떤 종류의 회로를 계산하고 있는가'나 '어느 뉴런이 어느 뉴런에 어떤 영향을 주고 있는가' 등에 대해서, 적절한 설명을 얻을 수 있게 되는 것이 목표입니다"라고 말했습니다.

반응형