OpenAI의 최신 AI 모델 "GPT-4o"가 발표되었습니다. 텍스트나 음성, 카메라 입력을 인간 수준의 속도로 처리 가능한 높은 성능으로 보도되고 있습니다만, 한편, 중국어 유저로부터는, 트레이닝에 큰 문제를 안고 있어, 토큰 데이터가 오염되어 있다고 지적했습니다.
OpenAI 's GPT-4o has a Chinese Porn and Spam Problem - WinBuzzer
https://winbuzzer.com/2024/05/18/gpt-4os-chinese-tokens-raise-concerns-over-data-quality-xcxwbn/
문제를 지적한 것은 프린스턴 대학의 박사과정 학생으로 대규모 언어 모델의 추론 효율을 연구하고 있는 蔡天楽 씨입니다.
AI는 입력된 문장을 '토큰'이라는 단위로 분해하여 효율적으로 처리합니다. 또, AI의 사용 시 입출력 토큰 수에 따라 요금이 설정되어 있어, GPT-4o의 경우는 입력이 100만 토큰당 5달러, 출력이 100만 토큰당 15달러로 되어 있습니다. GPT-4o의 특징 중 하나는, 일본어나 중국어 등 20종류의 언어로 사용 토큰 수를 줄인 것으로, 취급 토큰 수가 적기 때문에 이용 요금도 줄일 수 있게 된 것입니다.
Pricing | OpenAI
https://openai.com/api/pricing/
GPT-4o는 20만 토큰을 가지고 있으며, 그중 25%가 영어 이외의 언어입니다.
蔡 씨는 공개 토큰 라이브러리에서 중국어 최장 토큰 100건을 취득하여 토큰 내용을 조사했습니다.
그러자, 토큰은 포르노나 스팸 문구만으로 데이터가 오염되어 있는 상태라는 것을 알았습니다.
다음은 蔡 씨가 제시한 「GPT-4o가 취급하는 중국어의 긴 토큰」 의 내용으로, 「日本毛片免费视频观看(일본의 포르노 무료 동영상)」 나 「中国福利彩票天天(중국 복지 복권)」, 「免费视频在线观看(무료 온라인 동영상)」 등 포르노와 도박 관련 구절이 줄줄이 늘어서 있었습니다.
Longest Chinese tokens in gpt4o · GitHub
https://gist.github.com/ctlllll/4451e94f3b2ca415515f3ee369c8c374
이러한 문제는 관련 페이지를 탈취하는 스팸 사이트가 만들어지면서 학습자의 데이터 세트가 오염되었기 때문에 발생하는 것으로 추측됩니다. 또한 GPT-3.5나 GPT-4에서는 다른 토큰 라이브러리가 사용되고 있기 때문에, 같은 문제는 발생하지 않았다고 합니다.
덧붙여 일본어의 토큰에 관해서도 「風吹けば名無し(바람 불면 무명: 일본 5 채널 잡탕갤 작성자의 디폴트네임)」 등, 5 채널이나 관련 사이트를 기초로 한 데이터가 포함되어 있는 것으로 나타났습니다.
그래...
OpenAI 니들이 그 많은 외국어 커뮤 데이터를 어디서 얻었겠니
완전 5채널(우리로 따지면 일베) 그 잡채... ㅋㅋㅋ
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
Anthropic이 AI 모델의 '블랙박스'에 대해 수백만 개의 개념이 어떻게 표현되고 있는지 연구 결과를 보고 (3) | 2024.05.23 |
---|---|
Microsoft가 동영상의 더빙 및 실시간 자막 번역 AI 기능을 엣지에서 공개 (3) | 2024.05.23 |
Microsoft가 Copilot+PC용 언어 모델 「Phi-Silica」 의 일반 제공을 발표 (3) | 2024.05.23 |
애니메이션 특화 데이터 세트 「Sakuga-42M」이 등장 (4) | 2024.05.21 |
스탠퍼드대 연구 그룹이 GPU를 고속으로 동작시키는 AI용 도메인 고유 언어 「ThunderKittens」 출시 (73) | 2024.05.17 |
OpenAI가 「GPT-4o(옴니: omni)」 를 발표 (4) | 2024.05.17 |
Google이 오픈 소스 비주얼 언어 모델 'PaliGemma' 공개 (5) | 2024.05.16 |
Google이 영상과 음성을 이해하고 질문에 답하는 AI 에이전트 「Project Astra」 를 발표 (5) | 2024.05.16 |