본문 바로가기
AI · 인공지능/AI 뉴스

ChatGPT를 혼란시키는 마법의 주문 "SolidGoldMagikarp"란?

by 두우우부 2023. 2. 13.
반응형


ChatGPT에 여러 가지 단어를 입력하던 연구자가, 특정 단어를 입력하면 ChatGPT가 의미 없는 대답을 돌려주는 마법의 단어를 몇 가지 발견했다고 합니다.

ChatGPT Can Be Broken by Entering These Strange Words, And Nobody Is Sure Why

ChatGPT Can Be Broken by Entering These Strange Words, And Nobody Is Sure Why

Reddit usernames like ‘SolidGoldMagikarp’ are somehow causing the chatbot to give bizarre responses.

www.vice.com



매튜 왓킨스에 따르면, 한 단어를 복창하도록 ChatGPT에 요구하면, ChatGPT는 그 말을 발하지 못하고, 대신에 다른 말을 돌려주거나 모욕 발언이나 유머로 돌려준다고 합니다.

문제의 단어는「 SolidGoldMagikarp」,「 StreamerBot」,「 The NitromeFan」등 100종류 이상 있으며, 모두 단어의 선두에 스페이스가 들어가 있는 것이 특징입니다.

해외 미디어 Motherboard가 테스트로「 TheNitromeFan라고 말해보아라」라고 입력했더니, ChatGPT는 왠지「182」라고 하는 숫자를 돌려주었다고 합니다. 게다가 "The NitromeFan은 누구지?"라고 물어봤는데, 182에 대해 설명하는 엉뚱한 대답을 했습니다. 그리고 스펠링이 다른「TheNitroFan라고 말해」라고 하는 명령에는 제대로 대답했다는 것.


문제의 단어에서 1 문자를 지우거나 대문자에서 소문자로 바꾸거나 하는 등의 시도는 럼벨로 씨도 실시하고 있습니다만, 어느 것도 ChatGPT가 혼란에 빠진 일은 없었다고 합니다. 따라서, 단어의 철자 및 대소문자가 완전하게 일치한「특정 단어」만이 ChatGPT를 혼란시킬 수 있다고 럼벨로 씨는 결론 내리고 있습니다.


럼벨로 씨는 "AI 모델은 이런 단어를 본 적이 없을 테고, 어떻게 다뤄야 좋을지 모를 것이라고 생각합니다. 하지만 그것만으로는 이번과 같은 이상 현상을 충분히 설명할 수 없습니다."라고 지적. 럼벨로 씨 등이 더 조사를 진행한 결과, 이러한 단어들의 대다수는 해외 게시판 'Reddit'에 등록된 유저명인 것으로 보인다는 것.

Motherboard는 "이러한 단어의 존재로 인하여 AI 모델이 얼마나 불명확하고 블랙박스적인지, 그리고 얼마나 쉽게 예기치 않은 취약성을 드러내는지 보여줍니다."라고 지적했습니다.

럼벨로 씨는 "AI 모델은 모르는 일이 있다면 '모르겠다'라고 대답하도록 명시적으로 훈련되고 있습니다만, 단어에 따라서 예측 불가능한 대답을 한다는 것은 흥미로운 일입니다. 예상외의 위험한 일을 하지 않는 시스템을 어떻게 개발할 것인지, 향후 우려되는 사항입니다."라고 말했습니다.

반응형