AI에게「스타 트렉의 선장이 되어라」라고 지시하면 더 나은 성능을 발휘하는 것을 발견

대규모 언어 모델(LLM)에게 SF 드라마, "『스타 트렉』의 등장인물이 되어라."라는 프롬프트를 입력하자 수학 문제를 푸는 능력이 향상됐다는 논문이 arXiv에 게시되었습니다.

[2402.10949] The Unreasonable Effectiveness of Eccentric Automatic Prompts
https://arxiv.org/abs/2402.10949

The Unreasonable Effectiveness of Eccentric Automatic Prompts

Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. This study endeavors to quantify the influence of incorporating "posit

arxiv.org

AIs get better at maths if you tell them to pretend to be in Star Trek | New Scientist

AIs get better at maths if you tell them to pretend to be in Star Trek

Chatbots vary their answers depending on the exact wording used to prompt them, and now it seems that asking an AI to answer as if it were a Star Trek captain boosts its mathematical ability

www.newscientist.com

VMWare의 연구자인 릭 배틀 씨와 테자 고라푸디 씨는 챗봇 AI의 기반이 되는 대규모 언어 모델(LLM)로 프롬프트를 미세 조정한 후 초등학생 수준의 산수 문제를 푸는 벤치마크 테스트 "GSM8K"를 실행했습니다.

연구팀은 Mistral 7B와 Lama 2-13B, Lama 2-70B의 세 가지 모델에 60개의 초기 프롬프트를 입력했습니다. 이 초기 프롬프트는 인간이 만든 것으로, "당신은 전문 수학자입니다. 앞으로 수학 문제를 풀겠습니다. 심호흡하고 잘 생각해 주세요" 등 AI에 특정 캐릭터나 사고방식을 설정했습니다. 또한 연구팀은 AI가 초기 프롬프트를 개선하고 보다 효과적인 것으로 업그레이드하도록 시도했습니다.

그 결과 거의 모든 경우에, AI가 개선한 프롬프트에 의한 GSM8K의 점수가 인간이 만든 초기 프롬프트에 의한 것보다 높았다는 것이 밝혀졌습니다.

특히 Llama2-70B에서 GSM8K 벤치마크 테스트에서 가장 높은 점수를 낸 것은 '스타 트렉'의 선장이 되어 대답하라는 프롬프트를 받았을 때였습니다. 이 프롬프트는 AI가 자발적으로 생성한 것으로, 인간이 제안한 초기 프롬프트가 아니었다는 것. '스타 트렉'의 프롬프트를 입력한 Flama2-70B는 문제의 해답을 "선장의 로그"에 기록하는 형태로 출력했다고 합니다. 왜 AI가 '스타 트렉'의 선장이 되는 프롬프트가 효과적이라고 판단했는지는 불분명하지만, 인터넷에는 '스타 트렉'에 관한 정보가 대량으로 존재하고 있어, 정보와 함께 잘 나타나기 때문이 아닐까?라고 추측하고 있습니다.

영국 스타포드셔 대학의 컴퓨터 과학자인 캐서린 플릭은 "LLM은 결국 가중치와 확률을 결합하여 최종 결과를 출력하기 때문에, 그들이 그 과정에서 무엇을 하고 있는지 알지 못합니다. 한 가지 확실한 것은 이 모델은 트레키가 아니라는 것입니다."라고 말했습니다.

트레키(Trekkie)란 『스타트렉』시리즈 극성팬의 총칭(부정적인 뉘앙스가 강하고, 야유를 위해 사용되고 있으므로, 팬들 사이에선 싫어하는 호칭법)

저작자표시 비영리 변경금지

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

GPT-4의 절반 이하의 계산으로 거의 동등한 IQ를 가지는 퍼스널 AI「Pi」와 기반 모델「Inflection-2.5」가 등장 (60)	2024.03.11
AI 조종으로 각광받는「프롬프트 엔지니어」가 벌써 사라질 위기? (65)	2024.03.11
Midjourney, ChatGPT Plus, DreamStudio, Image Creator는 41%의 비율로 가짜 선거이미지를 생성 (73)	2024.03.08
GPT-4를 뛰어넘는 성능으로 이미지와 문장을 동시에 처리할 수 있는 멀티모달 AI「Claude 3」출시 (71)	2024.03.06
ChatGPT 등 채팅 AI의 보안 기능을 파괴하는 멀웨어 「Morris II」가 등장 (4)	2024.03.05
Microsoft가 1.58비트 LLM을 출시, 행렬 계산을 더하여 계산 비용을 급감 (72)	2024.03.04
LLM의 동작을 Excel에서 완벽 재현하여 AI 구조를 학습하는 시트가 등장 (71)	2024.03.04
AI가 이미지 설명을 자동으로 생성 (89)	2024.02.29

두우우부

AI에게「스타 트렉의 선장이 되어라」라고 지시하면 더 나은 성능을 발휘하는 것을 발견

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

AI에게「스타 트렉의 선장이 되어라」라고 지시하면 더 나은 성능을 발휘하는 것을 발견

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바