본문 바로가기
AI · 인공지능/AI 뉴스

AI에게「스타 트렉의 선장이 되어라」라고 지시하면 더 나은 성능을 발휘하는 것을 발견

by 두우우부 2024. 3. 5.
반응형

 
 
대규모 언어 모델(LLM)에게 SF 드라마, "『스타 트렉』의 등장인물이 되어라."라는 프롬프트를 입력하자 수학 문제를 푸는 능력이 향상됐다는 논문이 arXiv에 게시되었습니다.

[2402.10949] The Unreasonable Effectiveness of Eccentric Automatic Prompts
https://arxiv.org/abs/2402.10949

The Unreasonable Effectiveness of Eccentric Automatic Prompts

Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. This study endeavors to quantify the influence of incorporating "posit

arxiv.org



AIs get better at maths if you tell them to pretend to be in Star Trek | New Scientist

AIs get better at maths if you tell them to pretend to be in Star Trek

Chatbots vary their answers depending on the exact wording used to prompt them, and now it seems that asking an AI to answer as if it were a Star Trek captain boosts its mathematical ability

www.newscientist.com



VMWare의 연구자인 릭 배틀 씨와 테자 고라푸디 씨는 챗봇 AI의 기반이 되는 대규모 언어 모델(LLM)로 프롬프트를 미세 조정한 후 초등학생 수준의 산수 문제를 푸는 벤치마크 테스트 "GSM8K"를 실행했습니다.

연구팀은 Mistral 7B와 Lama 2-13B, Lama 2-70B의 세 가지 모델에 60개의 초기 프롬프트를 입력했습니다. 이 초기 프롬프트는 인간이 만든 것으로, "당신은 전문 수학자입니다. 앞으로 수학 문제를 풀겠습니다. 심호흡하고 잘 생각해 주세요" 등 AI에 특정 캐릭터나 사고방식을 설정했습니다. 또한 연구팀은 AI가 초기 프롬프트를 개선하고 보다 효과적인 것으로 업그레이드하도록 시도했습니다.



그 결과 거의 모든 경우에, AI가 개선한 프롬프트에 의한 GSM8K의 점수가 인간이 만든 초기 프롬프트에 의한 것보다 높았다는 것이 밝혀졌습니다.

특히 Llama2-70B에서 GSM8K 벤치마크 테스트에서 가장 높은 점수를 낸 것은 '스타 트렉'의 선장이 되어 대답하라는 프롬프트를 받았을 때였습니다. 이 프롬프트는 AI가 자발적으로 생성한 것으로, 인간이 제안한 초기 프롬프트가 아니었다는 것. '스타 트렉'의 프롬프트를 입력한 Flama2-70B는 문제의 해답을 "선장의 로그"에 기록하는 형태로 출력했다고 합니다. 왜 AI가 '스타 트렉'의 선장이 되는 프롬프트가 효과적이라고 판단했는지는 불분명하지만, 인터넷에는 '스타 트렉'에 관한 정보가 대량으로 존재하고 있어, 정보와 함께 잘 나타나기 때문이 아닐까?라고 추측하고 있습니다.



영국 스타포드셔 대학의 컴퓨터 과학자인 캐서린 플릭은 "LLM은 결국 가중치와 확률을 결합하여 최종 결과를 출력하기 때문에, 그들이 그 과정에서 무엇을 하고 있는지 알지 못합니다. 한 가지 확실한 것은 이 모델은 트레키가 아니라는 것입니다."라고 말했습니다.

트레키(Trekkie)란 『스타트렉』시리즈 극성팬의 총칭(부정적인 뉘앙스가 강하고, 야유를 위해 사용되고 있으므로, 팬들 사이에선 싫어하는 호칭법)

반응형