ChatGPT와 같은 대규모 언어 모델(LLM)은 동작 구조를 알기 어려우므로 '블랙박스'라고 하는 경우가 많으며, AI의 위험성과 예측의 어려움을 주장하는 논의에 박차를 가하고 있습니다. LLM(Large Language Model)의 이해를 돕기 위해 OpenAI는 LLM을 사용하여 LLM의 기능을 설명하는 도구를 공개했습니다.
OpenAI’s new tool attempts to explain language models' behaviors | TechCrunch
LLM은 뇌와 비슷한 '뉴런'으로 구성하는 것을 전제하고 있습니다. 예를 들어 "Marvel Comic"과 관련된 텍스트 시퀀스를 실행하면 Marvel Comics에 등장하는 영웅에 대한 뉴런이 활성화되어 영웅과 관련 단어가 출력될 가능성이 높습니다. 또한 이 데모에서는 최신 모델인 GPT-4를 이용하여 GPT-2의 동작을 평가하고 있습니다.
Language models can explain neurons in language models
https://openai.com/research/language-models-can-explain-neurons-in-language-models
OpenAI가 공개한 이 링크에는 '마블 만화'를 포함하여 총 12개의 텍스트 샘플이 준비되어 있습니다.
GPT-2의 출력과 뉴런의 활성이 나타나면 이것을 GPT-4에게 보여주고 설명을 생성시킵니다. 앞서 언급한 '마블 코믹'의 텍스트 시퀀스 결과에 대해 GPT-4는 '영화, 캐릭터, 엔터테인먼트에 대한 언급'이라는 설명을 부여했습니다.
그런 다음, GPT-4가 설명한 내용의 정확성을 판단하기 위해 GPT-4에도 텍스트 시퀀스를 제공하여 뉴런의 움직임을 시뮬레이션합니다.
그리고 시뮬레이션된 뉴런의 활성(상단)과 실제 뉴런의 활성(하단)을 비교하여 채점합니다. 이번 점수는 '0.34'였습니다.
12개 샘플 중에서, 점수는 '0.01'에서 '0.86'까지 차이가 있었습니다.
OpenAI의 Jeff Wu 씨는 "이 방법을 사용하면 기본적으로 모든 뉴런에 대해 무엇을 하고 있는지에 대한 사전 설명을 자연 언어로 도출합니다. 그 설명이 실제 행동과 얼마나 일치하는지 점수를 얻을 수 있습니다."라고 말했습니다.
실제로 이런 방식으로 Wu 씨는 GPT-2의 30만 7,200개의 뉴런 모두에 대한 설명을 생성할 수 있었습니다. 이러한 툴은 AI의 편향과 유해성을 줄이는 등 LLM의 성능을 향상하는 데 사용할 수 있을 것이라고 연구자들은 기대하고 있습니다.
그러나 그것이 눈에 보이는 형태로 도움이 되기 위해서는 아직 갈 길이 먼 것도 사실입니다. 이번 예에서는, 30만 7,200개의 뉴런의 설명 가운데, 확신을 가지고 설명할 수 있었다고 말할 수 있는 것은 약 1,000개에 지나지 않았다고 합니다.
Wu 씨는 "설명의 대부분은 점수가 매우 낮거나 실제 뉴런의 거동을 설명할 수 없었습니다. 예를 들어, 5 ~ 6개의 상이한 부분에 대해 활성화할 때의 패턴을 찾을 수 없는 상태입니다. 또한, 식별 가능한 패턴이 있더라도 GPT-4에서는 그것을 찾을 수 없는 경우도 있었습니다."라고 말했습니다.
GPT-2조차 이해하기 어려운 경우 더 복잡하고 규모가 큰 LLM과 수시로 인터넷에서 정보를 얻을 수 있는 모델을 이해하는 것은 더욱 어렵습니다. 그러나 후자의 경우 인터넷을 열람할 수 있어도 기본적인 메커니즘은 그다지 변하지 않는다고 Wu 씨는 생각하고 있습니다. 왜냐하면 그 뉴런이 왜 특정 검색어로 검색했는지, 왜 특정 사이트에 액세스 했는지 보기 위해서 약간의 손만 데면 되기 때문입니다.
Wu 씨는 "이번에 공개한 툴을 통해 제삼자가 구축하고 공헌할 수 있는 자동화된 방식으로 해석가능성을 다루는 데 있어서 유망한 길을 열 수 있기를 바랍니다. 궁극적으로 뉴런이 무엇에 반응하는지 뿐만 아니라 그 모델의 전체적인 동작, 즉 '어떤 종류의 회로를 계산하고 있는가'나 '어느 뉴런이 어느 뉴런에 어떤 영향을 주고 있는가' 등에 대해서, 적절한 설명을 얻을 수 있게 되는 것이 목표입니다"라고 말했습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
AI로 생성한 수만개의 곡을 음악 스트리밍 서비스 Spotify가 삭제 (9) | 2023.05.11 |
---|---|
오픈 소스 LLM 개발 프로젝트 「RedPajama」가 최초의 모델 「RedPajama-INCITE」릴리즈, 무료로 상용 이용도 가능 (7) | 2023.05.11 |
ChatGPT로 가짜 열차 사고 뉴스를 만든 용의자를 중국 경찰이 체포 (2) | 2023.05.11 |
Google이 대규모 언어 모델 'PaLM 2'를 발표, 이미 25개의 Google 서비스에 도입 (1) | 2023.05.11 |
Meta가 6가지 데이터를 통합하는 오픈 소스 AI 모델 「ImageBind」를 공개 (0) | 2023.05.10 |
「ChatGPT 도입을 검토하는 시즈오카현 시마다시」 추진파와 신중파, 나뉘는 지자체별 정책 (4) | 2023.05.10 |
Microsoft가 생성 AI의 운영비 절감을 위해 독자적인 AI칩 개발 (5) | 2023.05.10 |
「빅테크에 권력이 집중되는 것에 맞서야 한다」라고 뉴욕대학의 연구기관이 발표 (4) | 2023.05.10 |