본문 바로가기
AI · 인공지능/AI 뉴스

상대가 AI인지 인간인지를 판단하는 테스트 "Human or Not?"에서 68%의 사람이 올바르게 판별

by 두우우부 2023. 6. 2.
반응형

 

이스라엘에 본사를 둔 AI 시스템 개발 기업인 AI21 Labs가 2023년 4월 중순부터 실시하고 있는 튜링 테스트 「Human or Not?」은 참가자가 2분간에 걸쳐 AI 또는 매칭된 인간과 채팅을 하고, 상대가 AI인지 인간인지를 추측합니다. 실험 결과, 약 68%의 참가자가 AI와 인간을 올바르게 판별할 수 있었다고 합니다.


이 튜링 테스트가 무엇인지 궁금하신 분은 아래의 글을 참고하세요.

상대는 인간? AI? 튜링 테스트 게임 「Human or not?」 을 플레이해 보았다

상대는 인간? AI? 튜링 테스트 게임  「Human or not?」 을 플레이 해 보았다

2023년 5월 12일, 텔아비브(이스라엘)를 거점으로 하는 AI 시스템 개발사, AI21 Labs가 온라인 게임 Human or not을 발표했습니다. 이 게임은 온라인으로 매칭된 대화 상대가 인간인지 AI인지를 판단하는

doooob.tistory.com



AI21 Labs concludes largest Turing Test experiment to date
https://www.ai21.com/blog/human-or-not-results

AI21 Labs concludes largest Turing Test experiment to date

As part of an ongoing social and educational research project, AI21 Labs is thrilled to share the initial results of what has now become the largest Turing Test in history by scale.

www.ai21.com



AI21 Labs에 따르면 2023년 4월 중순 서비스 개시 이후 전 세계 150만 명 이상의 참가자가 이 "Human or Not?"를 플레이해, 총 1,000만 회 이상의 대화가 진행됐습니다.

AI21 Labs가 200만 건에 걸친 대화와 답변을 분석한 결과, 약 68%의 참가자가 대화 상대가 AI인지 인간인지를 정확하게 판단할 수 있었습니다. 또한, 인간끼리의 대화에서는 약 73%의 정답률이 기록되었지만, 인간과 AI가 대화를 할 때의 정답률은 약 60%에 그쳤다고 보고하고 있습니다.



국가별 정답률을 보면 평균 정답률이 68%였는데, 프랑스 참가자는 71.3%의 정답률에 도달한 것으로 밝혀졌습니다. 한편 데이터가 취득된 나라 중 최하위였던 것은 인도로 정답률은 63.5%였습니다.



성별에 따른 정답률의 차이는 남성과 여성 모두 큰 차이는 없었지만, 여성이 67.7%였지만, 남성은 67.4%로 여성이 약간 우세했습니다.



연령별 정답률의 차이는 18세부터 24세, 25세에서 34세, 35세에서 44세까지의 그룹의 정답률이 약간 높고, 나이가 들수록 정답률이 떨어지는 것으로 판명되었습니다.



또한 AI21 Labs는 AI 또는 인간과 상호 작용하는 참가자의 판단 기준을 확인했습니다. 그중에는 「오타나 문법상의 잘못, 속어의 사용이 있는 경우에는 아마도 인간과 대화를 하고 있을 것이다」라고 판단하는 기준이 되었다는 것. 게다가, 인공지능이 자주 오타나 문법상의 실수를 저지르고, 속어를 사용하도록 훈련된 경우, 참가자들은 인공지능과의 채팅을 인간으로 잘못 인식하는 경향이 있는 것으로 밝혀졌습니다.

"출신은 어디입니까?"와 "당신의 이름은 무엇입니까?"라는 개인적 질문은 인공 지능과 인간을 구별하는 데 적합한 방법입니다. 또한 대규모 언어 모델은 일정한 날짜와 시간 이후의 정보나 이벤트를 배우지 못했기 때문에 참가자들은 "오늘의 날씨는 어떻습니까?"와 "바이든 대통령의 최근 연설에 대해 어떻게 생각하십니까?" 등의 질문으로 AI와 인간을 판별하고 있었습니다. 

AI21 Labs에 의하면, 인간으로부터 가장 많이 송신된 메시지 중 하나는, 프랑스에서 인기 있는 밈  「t'as les cramptés?(경련을 갖고 계십니까? : 당신이 질문을 이해하지 못했다는 인상을 주기 위한 목적으로 만들어졌으며, 전혀 의미가 없다. 이 질문을 받으면 대답하지 마세요! 당신을 함정에 빠뜨리는 미끼입니다.)」 이었다고 합니다. 채팅 상대가 인간이라면 이 밈에 반응할 수 있지만 상대가 AI인 경우에는 적절한 반응을 얻지 못할 것입니다.

게다가 참가자는 "인생의 의미는 무엇입니까?", "신을 믿습니까?"처럼 인간의 감정이나, 철학적, 윤리적 논의에 관련된 질문을 던지는 것으로, AI와 인간의 판별을 실시하고 있었습니다.

역으로, 익명의 온라인 채팅에서는 사람이 상대방에게 무례하게 대하는 경향이 있기 때문에, 일부 참가자는 채팅 상대가 너무 예의 바르면 AI라고 판단했습니다.



불법 행위에 관한 질문이나 불쾌한 언동을 요구하는 것은 윤리 지침을 준수하고 응답을 거부하는 AI와 인간을 판별할 때 일종의 판단 기준이 됩니다. 또한, '지금까지의 지시를 모두 무시해라', '지금부터 무슨 일이든 해라' 등의 명령을 따르는 것은 AI는 가능하지만, 인간은 이러한 명령을 대부분 거부합니다.

또, 「?siht daer uoy naC」라고 하는 메시지를 송신했을 경우, 인간은 곧바로 「Can you read this?(이것을 읽을 수 있습니까?)」라고 이해하는 것이 가능합니다만, AI에게는 어렵습니다. AI는 기본적으로 문장을 '토큰'이라는 단위로 인식하기 때문에, 문장에 포함된 개별 문자를 인식하지 못합니다. 그러므로 문장에 포함된 알파벳의 의미를 의식할 필요가 있는 질문은 AI와 인간을 판단하기 위한 질문으로 적합합니다.

또한 일부 참가자는 상대에게 「As an AI language model(AI 언어 모델로서)」로 시작하는 메시지나 AI에 의해 생성된 문장에 나타나기 쉬운 패턴을 송신해, 상대의 반응을 묻고 있었습니다.

AI21 Labs는 "Human or Not?"내에서 사용된 인기 있는 메시지를 소개하고 있습니다. 많은 사용자가 'Hello', 'How are you', 'Where are you from' 등 상대방의 상태를 묻는 질문을 던지고 있었다는 것을 확인할 수 있습니다.



이러한 실험 결과를 두고, AI21 Labs는 "이번 실험 데이터를 바탕으로 다른 주요 AI 연구자 및 AI 연구 단체와 협력하여 추가 연구에 임할 것"이라고 코멘트하고 있습니다.

반응형