대규모 언어 모델(LLM)에게 SF 드라마, "『스타 트렉』의 등장인물이 되어라."라는 프롬프트를 입력하자 수학 문제를 푸는 능력이 향상됐다는 논문이 arXiv에 게시되었습니다.
[2402.10949] The Unreasonable Effectiveness of Eccentric Automatic Prompts
https://arxiv.org/abs/2402.10949
AIs get better at maths if you tell them to pretend to be in Star Trek | New Scientist
VMWare의 연구자인 릭 배틀 씨와 테자 고라푸디 씨는 챗봇 AI의 기반이 되는 대규모 언어 모델(LLM)로 프롬프트를 미세 조정한 후 초등학생 수준의 산수 문제를 푸는 벤치마크 테스트 "GSM8K"를 실행했습니다.
연구팀은 Mistral 7B와 Lama 2-13B, Lama 2-70B의 세 가지 모델에 60개의 초기 프롬프트를 입력했습니다. 이 초기 프롬프트는 인간이 만든 것으로, "당신은 전문 수학자입니다. 앞으로 수학 문제를 풀겠습니다. 심호흡하고 잘 생각해 주세요" 등 AI에 특정 캐릭터나 사고방식을 설정했습니다. 또한 연구팀은 AI가 초기 프롬프트를 개선하고 보다 효과적인 것으로 업그레이드하도록 시도했습니다.
그 결과 거의 모든 경우에, AI가 개선한 프롬프트에 의한 GSM8K의 점수가 인간이 만든 초기 프롬프트에 의한 것보다 높았다는 것이 밝혀졌습니다.
특히 Llama2-70B에서 GSM8K 벤치마크 테스트에서 가장 높은 점수를 낸 것은 '스타 트렉'의 선장이 되어 대답하라는 프롬프트를 받았을 때였습니다. 이 프롬프트는 AI가 자발적으로 생성한 것으로, 인간이 제안한 초기 프롬프트가 아니었다는 것. '스타 트렉'의 프롬프트를 입력한 Flama2-70B는 문제의 해답을 "선장의 로그"에 기록하는 형태로 출력했다고 합니다. 왜 AI가 '스타 트렉'의 선장이 되는 프롬프트가 효과적이라고 판단했는지는 불분명하지만, 인터넷에는 '스타 트렉'에 관한 정보가 대량으로 존재하고 있어, 정보와 함께 잘 나타나기 때문이 아닐까?라고 추측하고 있습니다.
영국 스타포드셔 대학의 컴퓨터 과학자인 캐서린 플릭은 "LLM은 결국 가중치와 확률을 결합하여 최종 결과를 출력하기 때문에, 그들이 그 과정에서 무엇을 하고 있는지 알지 못합니다. 한 가지 확실한 것은 이 모델은 트레키가 아니라는 것입니다."라고 말했습니다.
트레키(Trekkie)란 『스타트렉』시리즈 극성팬의 총칭(부정적인 뉘앙스가 강하고, 야유를 위해 사용되고 있으므로, 팬들 사이에선 싫어하는 호칭법)
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
GPT-4의 절반 이하의 계산으로 거의 동등한 IQ를 가지는 퍼스널 AI「Pi」와 기반 모델「Inflection-2.5」가 등장 (59) | 2024.03.11 |
---|---|
AI 조종으로 각광받는「프롬프트 엔지니어」가 벌써 사라질 위기? (64) | 2024.03.11 |
Midjourney, ChatGPT Plus, DreamStudio, Image Creator는 41%의 비율로 가짜 선거이미지를 생성 (73) | 2024.03.08 |
GPT-4를 뛰어넘는 성능으로 이미지와 문장을 동시에 처리할 수 있는 멀티모달 AI「Claude 3」출시 (71) | 2024.03.06 |
ChatGPT 등 채팅 AI의 보안 기능을 파괴하는 멀웨어 「Morris II」가 등장 (4) | 2024.03.05 |
Microsoft가 1.58비트 LLM을 출시, 행렬 계산을 더하여 계산 비용을 급감 (72) | 2024.03.04 |
LLM의 동작을 Excel에서 완벽 재현하여 AI 구조를 학습하는 시트가 등장 (71) | 2024.03.04 |
AI가 이미지 설명을 자동으로 생성 (89) | 2024.02.29 |