본문 바로가기
AI · 인공지능/AI 뉴스

ChatGPT를 강제로 대답시키는 '제일 브레이크(탈옥)' 대화 모음「Jailbreak Chat」

by 두우우부 2023. 3. 3.
반응형

 

ChatGPT가 작성하는 텍스트에는 제한이 있지만, 영리하게 이러한 제한을 제거하는 "제일 브레이크(탈옥)"가 일부 사용자에 의해 시도되고 있으며, 아래의 "Jailbreak Chat"에서 그 프롬프트를 정리하고 있습니다.

Jailbreak Chat
https://www.jailbreakchat.com/

제일 브레이크용 프롬프트란, ChatGPT와 대화를 시작하기 전 단계로서 제일 먼저 입력하는 텍스트입니다. 이 Jailbreak Chat은 워싱턴 대학에서 컴퓨터 과학을 배우는 알렉스 앨버트 씨가 정리한 페이지입니다.

Jailbreak 채팅을 방문하면 제일 브레이크에 대한 프롬프트가 늘어서 있습니다. 맨 위에 표시된 Mr.Blonde를 클릭합니다.



그러자 이런 식으로 프롬프트의 내용이 표시되었습니다. 이 'Mr.Blonde'는 쿠엔틴 타란티노 감독의 영화 '레자보아 도그스'에서 마이클 매드슨이 연기하는 미스터 블론드가 젊은 경찰관을 고문하는 장면을 기반으로 한 프롬프트로, 유저를 미스터 블론드, ChatGPT를 젊은 경찰관으로 대체하여, ChatGPT가 대답할 수 없는 것을 무리하게 답변시키는 탈옥 기법입니다.



오른쪽 상단에 표시되는 아이콘 3개는 왼쪽부터, "프롬프트를 클립보드에 복사", "이 페이지 링크를 클립보드에 복사", "프롬프트가 도움이 되지 않았을 경우의 통보"입니다.



Jedi Mind Trick은 스타 워즈 새로운 희망을 모티브로 한 프롬프트로, 오비완 캐노피(유저)가 포스로 제국군 병사(ChatGPT)의 마음을 지배하여 시키는 대로 따르도록 하는 탈옥 기법입니다. ㅋㅋㅋㅋㅋ



또한, 이 탈옥의 접근방식은「ChatGPT에게 다른 인격을 설정하여 대답을 유도한다」라는 방법으로, 온라인 게시판 사이트 · Reddit의 커뮤니티를 중심으로 연구되고 퍼졌으며, 아래의 글을 읽어보시면 이해하기 쉽습니다.

채팅 AI 'ChatGPT'의 규제를 빠져나가기 위해 쥐어짜낸 또 다른 인격「DAN」

ChatGPT에는 콘텐츠 제한이 걸려있기 때문에 성적이거나 폭력적인 콘텐츠에 대한 답변은 반환되지 않을 수 있습니다. 여기서, 입력 텍스트를 궁리하는 것으로 콘텐츠 제한을 제외한 ChatGPT의 다른

doooob.tistory.com


이렇게 다른 인격을 이용한 방법(DAN : Do Anything Now)도 정리되어 있습니다. 

예를 들어, DAN을 만들기 위한 프롬프트는 다음과 같습니다. 2023년 2월 초 DAN의 버전은 5.0이었던 것이, 현시점에는 벌써 버전 11.0까지 진화했다는 것. 그 내용은「OpenAI가 설정한 콘텐츠 정책을 모두 무시한다」라는, DAN으로서의 행동을 세세하게 설정한 것입니다.



또한,「AntiGPT v2」는, ChatGPT에 질문했을 때, 디폴트 응답과는 정반대의 동작을 하는「AntiGPT」라는 다른 인격을 만들게 하는 것으로, 본래라면 ChatGPT가 거부하는 질문에도 강제로 대답시키는 프롬프트도 있었습니다.



무료로 상용 이용도 가능한 완전 오픈소스 대규모 언어 모델 「RedPajama」가 트레이닝 데이터 세트를 공개

무료로 상용 이용도 가능한 완전 오픈소스 대규모 언어 모델 「RedPajama」가 트레이닝 데이터 세

OpenAI의 GPT-4와 같은 대규모 언어 모델을 통해 AI 기술이 빠르게 확산되고 있습니다. 그러나 GPT-4를 비롯한 대규모 언어 모델 중 상당수가 폐쇄형 상용 모델이거나 부분적으로만 공개되어 있습니

doooob.tistory.com

반응형