본문 바로가기
AI · 인공지능/AI 뉴스

ChatGPT가 어떻게 문장을 인식하는지 한눈에 알 수 있는 'Tokenizer'

by 두우우부 2023. 4. 7.
반응형

 

AI는 문장을 읽고 쓸 때, 「토큰」이라는 단위로 인식을 실시합니다만, 보통의 문장이 토큰으로 어떻게 분해되는지를 한눈에 보여주는 툴, 「Tokenizer 」를 OpenAI가 게시했습니다.

OpenAI API
https://platform.openai.com/tokenizer


Tokenizer의 화면은 이런 느낌. 텍스트를 입력해야 하지만 일단 Show example을 클릭하여 예제를 살펴보겠습니다.


이 영문의 경우, 252 캐릭터의 문장으로 64 토큰이 되는 모양. 아래에 토큰마다 색으로 나뉘어 표시되고 있습니다.


「TOKEN IDS」를 클릭하면 각각의 수치도 확인할 수 있습니다. 인간이 보면 뭐가 뭔지 모르겠지만, GPT는 이 수열을 보고 문장을 판단하고 있습니다.

 


숫자를 입력해 보았습니다. 3 문자까지가 1 토큰...


4를 입력하자 2개의 토큰으로 나뉘었습니다.


단어 이외의 문자열은 2~3 캐릭터가 1 토큰으로 정리되는 모양.


또, GPT-3와 Codex는 공백의 취급이 다르다는 것. GPT-3은 공백 10개가 10개의 토큰입니다.


한편 Codex는 공백을 많이 넣어도 1 토큰으로 취급합니다.


ChatGPT는 토큰의 수로 과금하므로, 어떤 경우에 토큰 수가 많아지는지 알고 있으면 사용료를 줄일 수 있을 것 같습니다. GPT-3 내부에서 토큰이 어떻게 처리되는지에 대해서는 아래의 글에서 알기 쉽게 정리하고 있니다.

 

OpenAI가 개발한 텍스트 생성 AI「GPT-3」가 어떤 처리를 하고 있는지 전문가가 해설

 

OpenAI가 개발한 텍스트 생성 AI「GPT-3」가 어떤 처리를 하고 있는지 전문가가 해설

AI 연구단체 · OpenAI가 발표하여 화제를 불러온 대화형 AI「ChatGPT」는, 텍스트 자동 생성 AI・GPT-3 의 파생형인「GPT-3.5」를 파인 튜닝한 자연 언어 처리 모델입니다. 취리히 공과대학에서 기계 학

doooob.tistory.com

반응형