본문 바로가기
AI · 인공지능/AI 뉴스

GPT-4o의 중국어 토큰은 포르노와 스팸으로 오염됨

by 두우우부 2024. 5. 21.
반응형

 
 
OpenAI의 최신 AI 모델 "GPT-4o"가 발표되었습니다. 텍스트나 음성, 카메라 입력을 인간 수준의 속도로 처리 가능한 높은 성능으로 보도되고 있습니다만, 한편, 중국어 유저로부터는, 트레이닝에 큰 문제를 안고 있어, 토큰 데이터가 오염되어 있다고 지적했습니다.



OpenAI 's GPT-4o has a Chinese Porn and Spam Problem - WinBuzzer
https://winbuzzer.com/2024/05/18/gpt-4os-chinese-tokens-raise-concerns-over-data-quality-xcxwbn/


문제를 지적한 것은 프린스턴 대학의 박사과정 학생으로 대규모 언어 모델의 추론 효율을 연구하고 있는 蔡天楽 씨입니다.

AI는 입력된 문장을 '토큰'이라는 단위로 분해하여 효율적으로 처리합니다. 또, AI의 사용 시 입출력 토큰 수에 따라 요금이 설정되어 있어, GPT-4o의 경우는 입력이 100만 토큰당 5달러, 출력이 100만 토큰당 15달러로 되어 있습니다. GPT-4o의 특징 중 하나는, 일본어나 중국어 등 20종류의 언어로 사용 토큰 수를 줄인 것으로, 취급 토큰 수가 적기 때문에 이용 요금도 줄일 수 있게 된 것입니다.

반응형

Pricing | OpenAI
https://openai.com/api/pricing/

GPT-4o는 20만 토큰을 가지고 있으며, 그중 25%가 영어 이외의 언어입니다.

蔡 씨는 공개 토큰 라이브러리에서 중국어 최장 토큰 100건을 취득하여 토큰 내용을 조사했습니다.

그러자, 토큰은 포르노나 스팸 문구만으로 데이터가 오염되어 있는 상태라는 것을 알았습니다.

다음은 蔡 씨가 제시한  「GPT-4o가 취급하는 중국어의 긴 토큰」 의 내용으로, 「日本毛片免费视频观看(일본의 포르노 무료 동영상)」 나  「中国福利彩票天天(중국 복지 복권)」,  「免费视频在线观看(무료 온라인 동영상)」 등 포르노와 도박 관련 구절이 줄줄이 늘어서 있었습니다.

Longest Chinese tokens in gpt4o · GitHub
https://gist.github.com/ctlllll/4451e94f3b2ca415515f3ee369c8c374


이러한 문제는 관련 페이지를 탈취하는 스팸 사이트가 만들어지면서 학습자의 데이터 세트가 오염되었기 때문에 발생하는 것으로 추측됩니다. 또한 GPT-3.5나 GPT-4에서는 다른 토큰 라이브러리가 사용되고 있기 때문에, 같은 문제는 발생하지 않았다고 합니다.

덧붙여 일본어의 토큰에 관해서도  「風吹けば名無し(바람 불면 무명: 일본 5 채널 잡탕갤 작성자의 디폴트네임)」 등, 5 채널이나 관련 사이트를 기초로 한 데이터가 포함되어 있는 것으로 나타났습니다.




그래...
OpenAI 니들이 그 많은 외국어 커뮤 데이터를 어디서 얻었겠니
완전 5채널(우리로 따지면 일베) 그 잡채... ㅋㅋㅋ

반응형