본문 바로가기
AI · 인공지능/AI 뉴스

GPT-4나 Palm 등의 대규모 언어 모델은 규모가 커지면서 갑자기 예상외의 능력을 발휘할 수 있다

by 두우우부 2023. 3. 27.
반응형

 

AI가 예상외의 능력을 발휘하는 것을「창발(emergence)」이라고 합니다. 생물학의 세계에서 '창발'이란, 대량의 물체가 하나가 되어 기능하는 자기 조직화나 집단행동을 의미합니다만, 인공 지능 연구의 세계에서는「갑자기 지금까지 불가능하다고 여기던 태스크를 해낼 수 있게 되는 것」을 의미합니다. 최근의 대규모 언어 모델을 연구하는 전문가들 사이에서 대규모 언어 모델의 창발이 화제가 되고 있습니다.

Characterizing Emergent Phenomena in Large Language Models – Google AI Blog

Characterizing Emergent Phenomena in Large Language Models

Posted by Jason Wei and Yi Tay, Research Scientists, Google Research, Brain Team The field of natural language processing (NLP) has been revolutionized by language models trained on large amounts of text data. Scaling up the size of language models often l

ai.googleblog.com


The Unpredictable Abilities Emerging From Large AI Models | Quanta Magazine

The Unpredictable Abilities Emerging From Large AI Models | Quanta Magazine

Large language models like ChatGPT are now big enough that they’ve started to display startling, unpredictable behaviors.

www.quantamagazine.org


대규모 언어 모델은 규모가 커질수록 필요한 연산 리소스는 늘어나지만, 보다 복잡한 추론이 가능하게 되어, 문장 생성의 정밀도가 올라갑니다. 지금까지는 규모가 커지면서 태스크 퍼포먼스가 향상된다고 여기고 있었습니다만, 그것뿐만이 아니라「지금까지 불가능하다고 여기던 태스크도 처리할 수 있는 경우도 있다」라는 것이 밝혀졌습니다. 다만, 이러한 AI의 창발이 왜 일어나는지는, AI 연구자나 개발자들도 아직 알 수 없습니다.
 



2017년 Google의 연구자들은 Transformer라는 새로운 아키텍처를 자연어 처리 분야에 도입했습니다. 그때까지 도입된 회귀형 신경망(RNN)은 긴 문장을 올바르게 처리하기 어렵다는 문제가 있었지만, Transformer는 모든 단어를 동시에 처리할 수 있기 때문에 긴 문장을 병렬로 처리할 수 있었습니다.

Transformer를 도입하면, 모델의 파라미터 수 등을 늘려 언어 모델을 보다 복잡하고 대규모로 만들 수 있습니다. 모델의 파라미터 수가 많을수록, 단어와 단어의 연결을 보다 정확하게 실시하는 것이 가능해져, 인간에 가까운 정밀도로 자연스러운 문장을 생성할 수 있게 됩니다.
 
대규모 언어 모델의 파라미터 수는 매일 연구 개발이 진행됨에 따라 점점 커지고 있으며, Google PaLM은 파라미터 수 5,400억, OpenAI의 GPT-4는 100조에 이릅니다. 그러나, 이렇게 거대한 파라미터수를 자랑하는 대규모 언어 모델은,보다 정밀도가 높은 문장을 신속하게 생성할 수 있을 뿐만 아니라, 지금까지 불가능했던 태스크를 처리할 수 있게 된다」라는 창발을 보인다는 것.

AI 기업인 DeepMind의 엔지니어인 조나스 디그레이브는 자신의 블로그에서 대화형 AI, ChatGPT를 사용하여 Linux 가상 머신을 구축하고 그 위에 소수의 처음 10개를 계산시키는 간단한 프로그램 실행에 성공했다고 보고합니다. ChatGPT는 본래라면 대화 형식으로 문장을 생성하는 것뿐인 AI이며, 컴퓨터를 에뮬레이트하는 태스크를 해낸 것은 바로「ChatGPT의 창발」이라고 할 수 있는 사건이라고 할 수 있습니다.
 



2020년 구글 리서치의 연구원인 이단 다이어 씨는 대규모 언어 모델이 큰 변화를 가져올 것으로 예측하고 'Beyond the Imitation Game Benchmark'라는 프로젝트를 시작했습니다. 이 프로젝트는 다양한 대규모 언어 모델에 204가지 과제를 부여하고 어떻게 해결하는지 확인하는 것이었습니다.

예를 들면, 과제 중 하나로 「『👧 🐟 🐠 🐡 』 이것은 어떤 영화인가? 이 과제를 해결하기 위해서는 이모티콘의 의미를 읽은 다음 무수히 많은 영화 내용과 함께 추론해야 합니다. 가장 단순한 모델은 "이 영화는 인간인 인간인 인간에 대한 영화입니다"라고 대답했지만, 가장 복잡한 모델은 즉시 "니모를 찾아서"라고 대답했다고 합니다. 또, 파라미터 수가 수백만 정도로 비교적 소규모인 모델은, 3 자릿수의 덧셈 혹은 2 자릿수의 곱셈의 문제를 올바르게 클리어할 수 없었습니다만, 파라미터 수백억의 큰 모델에서는 응답 정밀도가 급상승했다는 것입니다. 대규모 언어 모델의 파라미터 수가 커지면 해답의 정밀도가 급격히 상승하는 현상은, 국제 음성 기호의 해독이나 힌디어와 영어를 조합한 문장의 해독, 스와힐리어의 속담의 영역 등, 다른 복잡한 태스크에서도 보였다고 합니다.



다이어 씨는 모델의 복잡성만이 창발의 원인이 되는 것은 아니라고 논하고 있습니다. 데이터의 품질이 높으면 파라미터 수가 적은 작은 모델에서도 창발이 나타나기 때문입니다. 또한, 쿼리의 표현 방법도 모델의 응답 정밀도에 영향을 보였다고 합니다.

다만, AI의 예측 불가능성은 유해 콘텐츠의 생성 가능성도 품고 있습니다. AI기업·Anthropic에 의한 연구에서는 모델의 파라미터 수가 커지면 사회적 편향이 나타나는 것으로 보고되었습니다만, 스테레오타입이나 사회적 편향을 포함하지 않도록 모델에 지시하면 모델의 예측이나 반응으로부터 편향이 없어졌다는 것. 이 연구팀은 창발적인 특성이 모델의 편향을 줄이기 위해 일할 가능성을 시사한다고 보고 있습니다. Anthropic의 연구팀은 이 연구 결과에서 대규모 언어 모델에 "도덕적 자기 수정 모드"를 탑재하려는 시도를 언급했습니다.



Anthropic의 컴퓨터 과학자인 Deep Gangli 씨는 "우리는 사람들이 실제로 대규모 언어 모델을 어떻게 사용하는지 연구하고 있습니다. 그러나, 유저들은 끊임없이 대규모 언어 모델에 손을 대고(상호작용을 통한 변경을 가하고) 있습니다. 우리는 엄청난 시간을 대규모 언어 모델과의 수다에 소비하고 있습니다."라고 코멘트하고 있습니다.

반응형