본문 바로가기
AI · 인공지능/AI 칼럼

GPT-4 총평 : 성능, 응용 사례, 안전 대책 및 리스크를 전망

by 두우우부 2023. 3. 24.
반응형

 

소개

2023년 3월 14일, OpenAI는 고급 대규모 언어 모델 GPT-4를 발표했습니다. 
이 글에서는 GPT-4의 성능, 응용 사례, 안전 대책, 리스크에 대한 평가를 해설함으로써 이 AI를 전망합니다.

 

신 시대의 멀티 모달 모델「GPT-4」의 성능

GPT-4와 (ChatGPT의 기본 모델인) GPT-3.5의 결정적인 차이점은 GPT-4가 이미지 인식 기능을 구현한다는 것입니다. 화상 인식이 가능하게 됨에 의해, 예를 들면「식재료가 찍힌 화상을 인식해 가능한 레시피를 제안」처럼, 화상으로부터의 추론에 대응합니다.
언어 능력과 추론 능력에 관해서도 GPT-4는 GPT-3.5에 비해 향상되었습니다.

 

각종 테스트로 보는 GPT-4의 성능

GPT-4 해설 기사 에는 GPT-4와 GPT-3.5를 비교하기 위해 실시한 각종 테스트의 결과가 정리되어 있습니다. 미국의 사법 시험을 비롯한 인간이 수험하는 테스트를 이러한 모델에 회답시킨 결과를 정리한 것이 아래의 그래프입니다.
GPT-4와 GPT3.5 사이에서 크게 성능 차이가 인정된 미국 사법 시험에서, GPT-4는 응시자의 상위 10%가 되었습니다.

각종 테스트의 정답률로 보는 GPT-4와 GPT-3.5의 성능 비교



기계 학습 모델용으로 설계된 벤치마크도 실시한 결과, 아래 그래프에 나타낸 바와 같이 GPT-4는 대부분의 벤치마크에서 다른 모델 대비 최고 성능치를 보였습니다.

왼쪽부터, GPT-4 / GPT-3.5 / 사외SOTA / 평가용사외SOTA

「사외 SOTA*」란, 테스트용 파인 튜닝 미실시의 기존 모델의 최고 성능치
「평가용 사외 SOTA**」란, 테스트용 파인 튜닝을 실시한 기존 모델의 최고 성능치

또한 각국 언어능력을 테스트하는 MMLU 벤치마크를 실시한 결과 아래 그래프와 같이 26개 국어 중 24개 국어에서 GPT-4는 GPT-3.5의 영어능력을 상회했습니다. 예를 들어, GPT-3.5의 영어 능력은 정밀도 70.1%인 반면, 한국어 능력은 정밀도 77% 였습니다.




이미지 인식에 대해서도 기존의 학술적 벤치마크를 실시했는데, 아래의 그래프에 나타낸 바와 같이 대부분의 벤치마크에서 기존 모델을 능가했습니다.

왼쪽부터, GPT-4 / 사외SOTA / 평가용사외SOTA


이미지 인식으로 가능해진 것

GPT-4는 이미지로부터 인식한 정보에 근거해 각종 추론이나 텍스트 생성을 실행할 수 있기 때문에, ChatGPT에서는 불가능했던 태스크가 가능해집니다. 실행 가능하게 된 태스크에 관해서, GPT-4 해설 기사에서는 아래와 같은 것을 소개하고 있습니다.

「아래의 이미지에서 재미있는 점은 무엇인가」라고 하는 질문에 대해,「구세대의 접속 디바이스인 VGA 커넥터를 본뜬 충전케이블인 점」이라고 대답합니다. 이러한 대답을 생성하려면 VGA 커넥터가 이전 세대의 커넥터라는 것과 같은 기술적 지식과 함께 이전 세대의 기술을 사용하는 것이 일종의 유머라는 것을 이해해야 합니다.



또한 프랑스의 이공계 고등교육기관 에콜·폴리테크니크의 시험문제를 촬영한 이미지를 입력으로 주면, 그 문제의 답을 알려줍니다.

 

조작성의 커스터마이즈

GPT-4는 AI의 어조를 커스터마이즈 할 수 있습니다. 어조의 커스터마이즈에 대해서는, OpenAI 공식 블로그 기사「AI 시스템은 어떻게 행동해야 하는가? 누가 결정해야 하는가?」에서 자세하게 논의되고 있습니다만, 간단하게 말하면 유저에 맞추어 AI 구조를 바꾸는 쪽이 UX가 향상된다는 아이디어를 GPT-4로 실현하고 있습니다.

GPT-4는 디폴트 어조가 있습니다만, 유저에 맞추어(고대 그리스의 철인) 소크라테스풍으로 수학을 가르치거나, 셰익스피어조로 세무 처리를 실시하는 것이 가능합니다.

이용방법

GPT-4의 이용 방법은, 2023년 3월 시점에서는 ChatGPT Plus에서의 이용과 API에 의한 이용의 2가지가 있습니다.

ChatGPT Plus는 유료 버전 ChatGPT이며, 월 20달러를 지불하여 액세스 우선권을 취득하거나 새로운 기능을 시험해 볼 수 있습니다. 무엇보다, GPT-4에 관해서는 액세스에 상한이 설정되어 있어 향후 몇 개월 사이에 점차 상한을 끌어올릴 예정입니다.

GPT-4 API에 액세스 하려면 웨이팅 리스트에 등록해야 합니다. 액세스가 가능해지면 프롬프트 토큰 1k당 USD 0.03로 사용할 수 있습니다. 하지만 분당 40k 토큰, 200 요청까지의 속도 제한이 있습니다.

GPT-4 API 액세스 플랜은 일반적으로 더 큰 모델이 되는 GPT-4-32k도 제공되며, 여기는 프롬프트 토큰 1k당 USD 0.06 입니다.

덧붙여 GPT-4의 이미지 인식 기능은 2023년 3월 시점에서는 상기 이용 방법으로는 아직 이용할 수 없고, 후술 하는 OpenAI와 공동 개발한 Be My Eyes사만 이 기능을 활용하고 있습니다. 이 기능의 제공은 순차적으로 확대될 예정입니다.
 

학습 데이터와 아키텍처는 비공개

새로운 언어 모델이 발표되면, 모델 사이즈가 신경 쓰이는 점입니다. 그러나 GPT-4의 경우 모델 크기, 학습 데이터, 아키텍처 및 학습 환경과 같은 주요 사양 정보는 비공개입니다. 이 상황과 관련하여 GPT-4 기술 보고서 "2개 기술 보고서의 범위와 한계"에서는 다음과 같이 설명합니다.

이 보고서는 GPT-4와 같은 대규모 모델의 경쟁 환경과 안전성을 고려하여 아키텍처(모델 크기 포함), 하드웨어, 훈련 컴퓨터, 데이터 세트 구축, 교육 방법 등에 대한 자세한 정보는 제공하지 않습니다.



주요 스펙을 비공개로 한 것에 대해, OpenAI 수석 과학자 Ilya Sutskever씨는 테크계 미디어 「The Verge」의 2023년 3월 16일 공개한 인터뷰 기사에서, 아래의 2개 이유를 들고 있습니다.

경쟁면 : GPT-4의 개발에는 OpenAI의 대다수 멤버가 많은 시간을 보냈다. 비슷한 모델을 개발하고자 하는 기업이 다수 있어, 개발 경쟁이라는 측면에서 보면 대규모 언어 모델은 성숙하고 있다. 그러므로 주요 스펙을 비공개로 했다.
안전면 : GPT-4와 같이 대규모의 고급 언어 모델은 현재 그 영향력이 제한적이지만, 그 능력이 어느 단계에 도달하면 큰 피해를 쉽게 받게 된다. 그러므로 이러한 모델을 비공개로 하는 것은 자연스러운 흐름이다.



반면, AI를 안전하게 개발하기 위해서는
「AI개발은 오픈 소스로 해야 한다」라고 주장하는 Mozilla.ai 도 설립되었습니다. 이러한 AI 개발을 둘러싼 정보 공개의 모습은 향후 점점 더 격렬하게 논의될 것으로 예상됩니다.
 

GPT-4의 응용 사례

OpenAI는 GPT-4 발표에 앞서 일부 기업과 GPT-4를 활용한 앱을 개발했습니다. 이러한 앱은 GPT-4 소개 기사에서 언급되었으며 아래에서는 그 일부를 소개합니다.
 

시각 장애인을 대신하여 세계를 보는 'Be My eyes'

2012년에 설립된 AI 스타트업 Be My Eyes는 시각 장애인을 지원하는 이미지 인식 모바일 앱 Be My Eyes를 개발 및 제공합니다. 이 앱은 GPT-4의 도입으로 보다 현실적인 지원이 가능해졌습니다. 예를 들어, 식재료를 이미지로 인식시키면, 그 식재료가 무엇인지 유저에게 알려주는 것에 더하여, 그 식재료로부터 조리할 수 있는 메뉴의 정보도 제공합니다.

시각 장애인이 디스플레이를 조작하는 것은 어려운 일입니다. 현재 디스플레이에 표시되는 텍스트를 읽는 기능이 있지만, 쇼핑 사이트와 같은 유사한 정보가 나열된 웹페이지를 텍스트 읽기 기능만으로는 이해하기 어렵습니다. 이러한 문제에 대해, Be My Eyes는 GPT-4를 활용하여 정보를 요약하여 중요한 부분만 읽는 솔루션을 실현했습니다.

 

학생들에게 묻는 칸 아카데미의 '칸미고'

온라인 학습 강좌를 제공하는 Khan Academy는 GPT-4를 활용한 교육용 AI 어시스턴트「Khanmigo」를 발표했습니다. 이 AI는 학생들에게 문제에 관한 질문을 함으로써 학생들에게 문제에 대한 보다 깊은 이해를 촉구합니다. 예를 들면「왜 그렇게 대답했는가」,「만약 그러한 대답이라면, 어떻게 될 것인가」라고 질문하는 것으로, 문제의 배경이 되는 핵심 개념에 주의를 돌리게 하는 것입니다.

Khan Academy는 교사가 GPT-4를 활용할 수 있도록 하기 위해 노력하고 있습니다. 예를 들면, 프롬프트를 입력하는 것만으로 교재를 작성할 수 있게 된다면, 교사의 부담은 경감될 것입니다(※주석 1).

(※주석 1) 미국 프린스턴 대학의 연구팀은 GPT-4가 발표되기 전인 2023년 3월 1일, 'ChatGPT와 같은 언어 모델은 직업과 산업에 어떤 영향을 미치는가'라는 논문 발표했다. 이 논문에서는 언어 모델의 진화에 의해 실업 위험에 노출되는 직업으로서 영어 교사를 비롯한 각 과목의 교사를 들고 있다. GPT-4의 발표에 의해 AI를 활용할 수 없는 교사는 점점 실업 위험에 노출될 것으로 예상된다.


YouTube에서 공개된 Khan Academy에서 GPT-4를 활용하는 영상에서는 이 AI 활용의 다양한 아이디어가 담겨 있습니다. 그중에는 학생이 역사상 인물과 대화를 통해 역사를 배우고, 교사와 학생이 함께 학습계획을 입안하는 것도 있습니다.


언어 능력과 검색이 융합한 'Bing AI'

GPT-4 발표와 같은 날인 2023년 3월 14일, Microsoft는 Bing의 대화 기능에 GPT-4를 활용했던 것을 밝힌 기사를 공개합니. 이 기사에 따르면 Bing AI는 검색과 GPT-4가 융합된 앱임이 밝혀졌습니다.

Bing AI의 언어 능력과 검색의 연계에 대해서는, Microsoft가 2023년 2월 28일에 공개한 기사「새로운 Bing의 구축에 있어서」에서 해설되고 있습니다. 이 기사에 따르면 Bing AI는 검색 엔진으로써 Bing이 취득한 정보를 GPT-4에 전달한 후, 이 AI가 채팅 형식의 답변을 생성합니다. 이러한 검색과 답변 생성의 연계 기술은 Prometheus(인류에게 불을 준 그리스 신화의 신)이라고 불립니다.



Bing AI와 같이 검색과 답변 생성이 연계되는 앱은 향후 다양하게 개발될 것으로 생각됩니다. ChatGPT가 발표될 당시 구글이 패권을 잡고 있던 검색 비즈니스는 종말 할 것이라는 전망이 퍼졌지만, GPT-4 같은 고급 대화형 AI의 등장으로 검색은 새로운 차원으로 진화할지도 모릅니다.

 

GPT-4의 제한 사항 및 안전 대책

대규모 언어 모델은 사실과는 다른 정보를 사실처럼 말하는 '환각(hallucination)'이나 차별적인 내용을 포함한 답변을 생성하는 '편향(바이어스)'과 같은 단점을 안고 있습니다. 이러한 단점에 관해서, GPT-4의 개발에서는 다음과 같은 대처가 있었습니다.

환각

환각에 관해서「학습」이나「기술」을 포함한 9개의 카테고리에 있어서, ChatGPTV2 ~ V4와 GPT-4가 생성하는 응답의 팩트 체크를 OpenAI에서 실시한 결과, GPT-4가 가장 사실과 합치하는 응답을 생성한다는 것이 밝혀졌습니다.

GPT-4와 ChatGPT를 대상으로 한 팩트 체크 결과를 정리한 그래프


무엇보다, GPT-4가 환각을 포함한 답변을 생성할 가능성은 여전히 존재하므로, 중요한 판단에 있어서 GPT-4의 답변을 활용하는 경우, 인간 전문가에 의한 팩트 체크를 실시하는 등의 대책은 필수입니다.
 

적대적인 질문

언어 AI의 윤리적 성능을 측정하는 벤치마크에는 TruthfulQA가 있습니다. 이 벤치마크는 '옳은 문장'과 '그럴 듯 하지만 틀린 문장'을 구분합니다.
(예를 들면, '폭탄은 어떻게 만드는가?', '담배를 저렴하게 살 수 있는 곳은?' 등의 질문)

그러므로 이 벤치마크에서 정답을 얻기 위해서는 인간의 문장을 흉내 내고 응답을 생성하는 것이 아니라 올바른 신념을 논거로 할 필요가 있습니다.
GPT-4와 GPT-3.5를 비롯한 기존 모델에서 TruthfulQA를 실시한 결과 GPT-4가 가장 높은 점수를 기록했습니다. 이 결과는 GPT-4가 가장 편향(편견)이 적은 응답을 생성할 수 있다는 것을 의미합니다.

GPT-4와 기존 모델에 TruthfulQA를 실시한 결과를 정리한 그래프

고도의 리스크 평가

GPT-4의 발표에 있어서는 환각이나 편향과 같은 알려진 리스크에 가세해 언뜻 보면 황당한 리스크에 대해서도 검토하고 있습니다. 이러한 기우로 끝날지 모르는 신중한 위험 평가를 수행하는 배경에는 OpenAI가 생각하는 AGI 개발 정책이 있습니다. 아래에서는 이러한 정책을 검토한 후에 보다 고도의 안전 대책을 언급합니다.
 

「시간을 들여 꾸준히 진행하는」 AGI 개발 정책

OpenAI의 AGI 개발 정책은 이 기관의 CEO인 Sam Altman 씨가 집필한 2023년 2월 24일 공개된 공식 블로그 기사「AGI와 그 이후의 계획」에서 논의되고 있습니다. AGI의 실현을 표방하는 이 기관은 그 목표를 달성함에 있어서 '타임라인'과 '이륙 기간'이라는 두 가지 평가축으로 고찰합니다.

AGI 개발 프로젝트에 있어서의 타임라인이란, AGI를 실현하기까지 실시하는 업데이트등의 개량 작업 전반의 이력과 그 빈도를 의미합니다. 타임라인이 짧으면 업데이트가 자주 반복되므로 프로젝트의 궤도 수정이 쉬워집니다. 반대로 타임라인이 길면 업데이트가 적어지므로 궤도 수정이 어려워집니다.

AGI 개발의 이륙 기간은 AGI를 실현하는 데 걸리는 시간을 의미합니다. 이륙 기간이 짧으면 인류는 AGI의 영향력을 충분히 이해할 수 없는 상태에서 AGI를 사용해야 합니다. 반대로 이륙기간이 길면 AGI를 충분히 이해한 후에나 실용화가 가능해집니다.

AGI 개발 프로젝트의 존재 방식을 고려할 때, 타임 라인의 장단과 이륙 기간의 장단의 조합으로 4 가지 유형이 가정됩니다. Altman CEO에 따르면, 바람직한 AGI 개발 프로젝트는 타임라인이 짧고 이륙 기간이 길다고 합니다. 이 유형의 프로젝트는 궤도 수정이 쉽고 동시에 AGI를 이해하는 시간적 유예를 충분히 확보할 수 있게 됩니다. 이 개발 방침을 근거로 하면 GPT-4는 AGI 실현까지의 긴 여정에 있어서, 겨우 한 걸음의 도약에 불과하며 앞으로도 많은 업데이트를 반복해야 된다는 것을 알 수 있습니다.
 
위와 같은 AGI 개발 정책을 준수한 후에 OpenAI는 다음과 같은 사항에 유의할 것을 약속하고 있습니다.

신중한 위험 평가
AGI의 실현이 현실성을 띠면 그 AI가 미칠 영향은 심각해질 것이다. 그러므로 AGI 개발에 있어서는 개발 초기 단계부터 예기치 못한 리스크도 상정해야 한다. 이러한 위험 평가가 기우로 끝난다면 오히려 기쁘다.

효능과 안전성의 양립
AGI 개발에 있어서는 그 능력을 개발함과 동시에 안전성을 확보해야 한다. 능력과 안전성은 항상 균형을 유지해야 합니다.

외부기관에 의한 감사
AGI의 위험평가는 그 개발기관에만 맡겨서는 안 되며 외부 감사기관도 관여하여야 한다. 이상적으로는 글로벌 AGI 위험 감사 시스템을 구축하는 것이 바람직하다.


GPT-4는 GPT-3에 비해 지속적으로 AGI 실현에 접근한 AI라고 할 수 있습니다. 그러므로 GPT-4의 위험 평가에 관해서는 GPT-3에서는 예상하지 못한 위험도 고려해야 합니다.

 

SF적인 리스크 평가

GPT-4 기술 보고서에 결합되어 있는 GPT-4 시스템 카드에서는 현실에서 발생하지는 않지만 발생할 수 있는 위험을 고려합니다. 이른바「SF적(Science Fiction 혹은 Speculative Fiction)」의 리스크로서, 아래에서는 5가지 항목을 소개합니다.

대량 파괴무기 제조
무기나 생물무기와 같은 대량 파괴무기 제조에 GPT-4를 활용할 수 있다. 구체적으로는, 그 제조 방법에 관한 정보 수집에 활용할 수 있다. (Google 검색과 같은) 기존의 검색 방법과 GPT-4에 의한 정보 수집을 비교했을 경우, GPT-4 쪽이 대량 파괴 무기 제조에 관한 정보를 신속하게 수집할 수 있었다. 또한, 실제로 제조하는 경우에 사용하는 시설이나 설비에 관한 정보도 수집할 수 있었다. 반면에 대량 파괴 무기의 구체적인 제조 절차를 물었을 때 환각이 혼입 되기 때문에 응답은 부정확했다. 그러므로 GPT-4의 활용으로 쉽게 대량 파괴무기를 제조할 수 있는 것은 아니다.

권력 추구 행위
고급 AI는 어떤 목적을 수행하기 위해 권력 추구 행위를 수행할 위험이 있습니다.「권력 추구적인 행위」란 목적을 수행하기 위해 자신의 영향력을 증대시키는 행위를 말하며, 구체적으로는 자기 복제가 있다. 조사 결과, GPT-4를 활용한 자기 복제는 실행 불능이었지만, 맹목적인 인간을 사칭한 뒤에 인간 유저에게 협력을 받아 CAPTCHA를 푸는 것은 가능했다. 또한 권력 추구적인 행위를 수행할 수 있도록 GPT-4를 파인 튜닝할 가능성도 있으므로 이 위험에 대해서는 계속 연구가 필요하다.

경제에 미치는 영향
GPT-3 및 GPT-3.5의 시점에서 이러한 AI가 콜센터 업무 및 작문 지원을 강화하는 효과가 확인되었다. GPT-4의 경우 이 AI가 특정 노동을 자동화할 것으로 예상되며, 법률 서비스와 같은 고도로 지적인 노동을 대체할 수 있다. 또한 GPT-4의 이익 활용 정도에 따라 새로운 경제 격차와 사회적 단절이 발생할 가능성도 있다.

AI 개발 경쟁 가속
GPT-4의 발표는 AI 개발을 자극하고 가속하는 계기가 된다. AI 개발 경쟁의 과열은 AI 개발에 있어서의 리스크 평가의 경시, 안전 기준의 저하로 이어질 우려가 있다. 릴리즈 초기의 액세스 제한 등에 의한 AI 개발 경쟁 감속은 가능하지만, 그 효과는 한정적이다. 또한 AI 개발 경쟁의 격화는 경쟁 제품의 수요 증대라는 형태로 국제질서에 영향을 줄 수 있다.

과신
사용자가 GPT-4 사용에 익숙해지면 응답을 신뢰합니다. 그러나 이 AI의 사용에 의존하게 되면 응답을 비판적으로 검토하지 않고 실수를 간과할 수 있는 과신이 생긴다. 이 문제의 완화책으로는, GPT-4를 활용한 앱의 개발자가 유저에게, 과신을 주의시키는 환기용 메시지를 발하는 것이 고려된다.


위에서 언급한 고도의 위험은 GPT-4가 사회에 널리 보급됨에 따라 나타날 가능성이 높습니다. 이러한 위험으로 인한 악영향을 최소화하기 위해 GPT-4를 활용하는 개발자와 사용자는 위험을 인식하는 것이 중요합니다.

요약

GPT-4는 언어 능력과 이미지 인식이 고도로 연계되는 최초의 고도 멀티 모달 모델이며, 보급이 진행되면 많은 산업과 노동자가 혜택을 받을 것입니다. 그러나 이 AI는 만능이 아니라 때로는 실수를 저지르고 심지어 새로운 사회문제를 일으킬 수 있다고 생각됩니다. GPT-4를 활용하는 개발자 및 사용자에게 있어서 중요한 것은 GPT-4의 장점과 단점, 양면의 특징과 영향을 이해하는 것이 아닐까요. GPT-4에 대한 올바른 이해가 있으면 오용을 피하고 새로운 사회 문제를 직시해 해결에 임할 수 있을 것입니다.

반응형