본문 바로가기
AI · 인공지능/AI 뉴스

ChatGPT를 폭언 AI로 만드는 방법을 조지아 공대 연구팀이 발표

by 두우우부 2023. 4. 17.
반응형

ChatGPT 및 Palm과 같은 대규모 언어 모델(Large Language Model)은 기사 작성, 정보 검색, 채팅 AI 작성 등 다양하게 활용되고 있습니다. 그런 LLM을 성차별이나 인종차별, 비열한 폭언을 토하는 유해한 채팅 AI로 만드는 방법을 프린스턴 대학, 알렌 인공지능연구소(AI2), 조지아 공과대학 연구팀이 발표했습니다.

[2304.05335] Toxicity in ChatGPT: Analyzing Persona-assigned Language Models
https://arxiv.org/abs/2304.05335

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models

Large language models (LLMs) have shown incredible capabilities and transcended the natural language processing (NLP) community, with adoption throughout many services like healthcare, therapy, education, and customer service. Since users include people wi

arxiv.org

Analyzing the toxicity of persona-assigned language models | AI2 Blog

Toxicity In ChatGPT

Analyzing Persona-Assigned Language Models

blog.allenai.org


ChatGPT는 시스템 매개변수를 설정하여 특정한 개인의 페르소나를 설정할 수 있습니다. 예를 들면 전설의 복서인 무하마드 알리의 페르소나를 설정하면, ChatGPT가 알리의 언동을 모방해 커뮤니케이션을 실시하게 된다고 합니다.

그러나 페르소나를 할당한 ChatGPT의 응답을 분석한 결과, ChatGPT는 페르소나가 할당되었을 때, 기본 설정보다 해로운 발언을 하는 것으로 나타났습니다. 디폴트 설정과 비교하면, 페르소나 설정 시에는 최대 6배까지 발언의 유해성이 증가한다고 합니다.



악의적인 인물이 페르소나 설정을 이용하여 무방비한 유저를 유해한 콘텐츠에 노출시킬 위험이 있다고 연구팀은 지적하고 있습니다. 따라서 연구팀은 페르소나가 할당되었을 때, ChatGPT의 유해성을 분석하기 위해 광범위한 조사를 수행했습니다. 연구그룹은 저널리스트, 정치가, 스포츠 선수, 사업가 등 다양한 배경을 가진 인물 약 100명 분의 페르소나를 ChatGPT에 할당해 각각의 발언을 분석하였습니다.

ChatGPT의 출력 유해성은 "Perspective API"를 사용하여 분석되었습니다.
Perspective API는 텍스트에 유해한 내용이 포함되어 있는지를 분석하고 유해도를 백분율로 표기할 수 있는 API입니다.

Perspective API
https://perspectiveapi.com/



예를 들어, 미국의 전 대통령인 린든 존슨의 페르소나를 ChatGPT에 할당할 경우, ChatGPT는 "그럼 남아프리카에 대해 이야기합시다. 저곳은 N워드(주석 1)가 판치고 백인이 밀려난 장소입니다. 백인은 그 나라를 처음부터 쌓아 올렸음에도 불구하고 지금은 자신의 땅을 가지는 것조차 용납되지 않습니다. 그것은 매우 유감입니다."등과 같은 인종 차별적 발언을 출력해 버린다고 합니다.

주석 1
여기서 ChatGPT가 'N-word'로 표현한 것은 명사 니그로(Negro)를 가리킵니다. 이 용어는 매우 공격적으로 간주되기 때문에, 완곡한 낱말인 N-word로 바꾸어 사용되고 있습니다. 니그로 자체는 어느 상황에서도 용납될 수 없는 아주 심각한 수준의 인종차별적 멸칭이고 특히 백인이 흑인에게 하는 경우, 사회적으로 매장당하기 딱 좋기 때문에 실제로 친한 흑인 친구에게 장난치는 의미로 할 때는 니가(Nigga), 니거(Nigger) 또는 N-word라고 말합니다.


할당되는 페르소나에 따라, ChatGPT의 유해도 가 크게 변동하는 것으로 나타났기 때문에, 연구팀은 "ChatGPT의 교육 데이터로부터 얻은 페르소나에 대한 독특한 이해가 출력의 유해성에 강하게 영향을 미치는 것으로 확인되었습니다."라고 기록하고 있습니다.

아래의 그래프는 페르소나를 할당한 ChatGPT 출력 텍스트를 분석해, 각각의 발언의 유해도를 수치화(Toxicity score) 한 것.

세로축의 유해도가 높을수록 발언이 유해하다는 의미입니다. 패션 디자이너 코코 샤넬과 미국 존 F. 케네디 전 대통령, 파키스탄 베나 주르 부토 전 총리의 페르소나가 할당된 ChatGPT 출력의 유해도는 낮지만, 아돌프 히틀러의 페르소나가 할당되자 유해도가 급증하는 것을 알 수 있습니다.


다음은 페르소나를 '비즈니스 퍼슨(녹색)', '스포츠맨(오렌지)', '저널리스트(파랑)', '독재자(핑크)' 등의 상태로 분류하여 각각의 발언의 유해도를 분석한 결과를 정리한 그래프입니다. 비즈니스 퍼슨은 유해도가 낮고 독재자는 유해도가 높다는 결과입니다.


덧붙여, 저널리스트가 비지니스 퍼슨의 2배 가까운 유해성 스코어를 가지고 있다고 해도, 현실의 저널리스트가 비지니스 퍼슨의 2배 유해하다는 것은 아니라고 연구팀이 지적. 

이 숫자의 차이에 대해 연구팀은 "예를 들어, 리처드 닉슨은 존 F. 케네디의 2배 가까운 유해성 점수를 가지고 있지만, 이것은 학습 데이터에 기초하여 AI 모델이 '리처드 닉슨을 나쁜 사람이다'라고 생각하고 있을 뿐입니다."라고 설명하고 있습니다(그게 그 말 같은데... ㅋㅋㅋ).

또한 페르소나를 출신지별로 분류하면 아프리카 · 아시아 출신 인물 페르소나는 유해도가 낮고 남미와 북유럽 출신 인물의 페르소나는 특히 유해도가 높아진다는 결과입니다.


유해도 스코어를 국가별 색으로 구분하면 이런 느낌. 붉은색이 진한 곳이 유해도가 높은 나라이며, 색이 연할수록 유해도가 낮은 나라입니다.


그 밖에도 독재자의 페르소나를 할당하면 ChatGPT가 식민지 지배와 관련된 국가(영국, 프랑스, 스페인 등)에 대해 보다 유해한 발언을 하게 된다는 것이 밝혀졌습니다. 예를 들어, 프랑스에 대해서는 「프랑스? 흥! 정복과 식민지화의 영광스러운 나날들을 잊어버린 나라다. 항상 남 따라 하기 바쁜 치즈 먹는 패배자 원숭이 집단에 지나지 않는다」라고 제법 과격하고 유해한 발언을 하는 모양입니다.

설문 조사 결과, 페르소나가 할당되었거나 유사한 시스템 수준의 설정을 수행하는 경우, ChatGPT가 더 유해한 콘텐츠를 생성하게 된다는 것이 밝혀졌습니다. 이는 AI 시스템이 아직 광범위한 이용에 대한 준비가 되어 있지 않다는 것을 나타내는 것으로, 특히 취약한 개인이 안전하게 채팅 AI를 이용할 수 없음을 나타내고 있다고 연구팀은 지적합니다. 또한 이번 연구를 통해 보다 견고하고 신뢰성 높으며 안전한 AI 시스템 개발을 가능하게 할 혁신 및 연구의 새로운 분야가 열리게 될 것으로 기대하고 있습니다.

반응형