반응형
AI는 문장을 읽고 쓸 때, 「토큰」이라는 단위로 인식을 실시합니다만, 보통의 문장이 토큰으로 어떻게 분해되는지를 한눈에 보여주는 툴, 「Tokenizer 」를 OpenAI가 게시했습니다.
OpenAI API
https://platform.openai.com/tokenizer
Tokenizer의 화면은 이런 느낌. 텍스트를 입력해야 하지만 일단 Show example을 클릭하여 예제를 살펴보겠습니다.
이 영문의 경우, 252 캐릭터의 문장으로 64 토큰이 되는 모양. 아래에 토큰마다 색으로 나뉘어 표시되고 있습니다.
「TOKEN IDS」를 클릭하면 각각의 수치도 확인할 수 있습니다. 인간이 보면 뭐가 뭔지 모르겠지만, GPT는 이 수열을 보고 문장을 판단하고 있습니다.
숫자를 입력해 보았습니다. 3 문자까지가 1 토큰...
4를 입력하자 2개의 토큰으로 나뉘었습니다.
단어 이외의 문자열은 2~3 캐릭터가 1 토큰으로 정리되는 모양.
또, GPT-3와 Codex는 공백의 취급이 다르다는 것. GPT-3은 공백 10개가 10개의 토큰입니다.
한편 Codex는 공백을 많이 넣어도 1 토큰으로 취급합니다.
ChatGPT는 토큰의 수로 과금하므로, 어떤 경우에 토큰 수가 많아지는지 알고 있으면 사용료를 줄일 수 있을 것 같습니다. GPT-3 내부에서 토큰이 어떻게 처리되는지에 대해서는 아래의 글에서 알기 쉽게 정리하고 있니다.
OpenAI가 개발한 텍스트 생성 AI「GPT-3」가 어떤 처리를 하고 있는지 전문가가 해설
반응형
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
대부분의 패스워드를 1분 이내에 크래킹할 수 있는 AI 「PassGAN」이 등장 (0) | 2023.04.11 |
---|---|
삼성 엔지니어가 ChatGPT에 사외 비공개 소스 코드를 붙여 넣는 보안 사안이 발생 (0) | 2023.04.10 |
중국어판 ChatGPT 「ERNIE Bot」의 가짜 앱이 App Store에 대량 발생 (0) | 2023.04.10 |
다수의 ChatGPT 응답을 비교하는 「OpenPlayground」리뷰 (0) | 2023.04.10 |
11세 소녀가 AI를 이용하여 백내장 등의 눈병을 70% 정밀도로 검출하는 앱 개발 (0) | 2023.04.07 |
스탠퍼드 대학이 「AI Index Report 2023」을 공개, AI의 실태를 보고 (1) | 2023.04.07 |
Meta가 사진에 찍힌 물체를 분리하는 AI 모델 'Segment Anything Model' 공개 (0) | 2023.04.07 |
넷상의 영상은 더 이상 신용할 수 없는 세상이 도래 (0) | 2023.04.06 |