![](https://blog.kakaocdn.net/dn/Hv2OY/btsBqJgKsgq/LtcYeWjNJpYV5hnXC2KAX0/img.png)
ChatGPT와 같은 채팅 AI는 내부적으로 많은 계산을 수행하여 문장을 생성합니다. LLM Visualization 은 내부적으로 어떤 파라미터가 저장되어 있어 어떻게 계산이 이루어지고 있는지 3D 형식으로 보기 쉽게 시각화해 주는 사이트입니다.
LLM Visualization
https://bbycroft.net/llm
사이트에 액세스 하면 이렇습니다. 화면 왼쪽에 해설, 오른쪽에 3D 모델이 설치되어 있습니다. "Continue"를 클릭합니다.
![](https://blog.kakaocdn.net/dn/MGmQX/btsBqg6ZLvZ/SnH46DP4E6HSyRb1H6L1GK/img.png)
해설에서는 약 8만 5000 파라미터의 모델 「nano-gpt」로 3 종류의 문자를 재정렬하는 태스크를 실시해, 대규모 언어 모델 내부의 계산을 확인해 간다고 합니다. 스페이스바를 누르면 다음 섹션으로 진행합니다.
![](https://blog.kakaocdn.net/dn/uZ2u5/btsBlcjZnqH/ODAXp84r24QcwJOjl4DpT1/img.png)
해설의 단계에 따라 3D 모델의 주목해야 할 곳이 활성화되기 때문에, 어느 곳의 이야기를 하고 있는지 알기 쉽게 되어 있습니다.
![](https://blog.kakaocdn.net/dn/b108uV/btsBqrtQ7Tn/Gzr63sDvaKFjDNyhLBAjkk/img.png)
3D 모델의 파트에 커서를 올리면 「어떤 구조에 속한 파트인가」, 「행수」, 「열수」라는 파라미터를 확인할 수 있습니다. 아래 그림의 「Token Embed」의 경우는 「Embedding」을 구성하고 있어 행수가 매입의 사이즈인 채널수를 나타내는 「C」, 열수가 어휘 수를 나타내는 「n_vocab」 라고 표시됩니다. nano-gpt는 매우 작은 모델이며, 「A」,「B」,「C」라는 3개의 문자 밖에 취급할 수 없기 때문에 Token Embed의 열수도 3열로 된다는 것입니다.
![](https://blog.kakaocdn.net/dn/bIJBla/btsBl7W40Be/iRYnB7cuv6Upz3cbColNc1/img.png)
계산에 의해 결과를 구하는 부분에 커서를 맞추면 계산식을 볼 수도 있습니다. "Input Embed"는 "Token Embed"와 "Position Embed"를 더하여 구할 수 있습니다. 덧붙여 녹색의 블록은 입력을 바탕으로 계산해 값을 구하는 부분으로, 청색의 블록은 트레이닝 중에 값을 조정해 두는 파라미터가 되는 부분이라고 합니다.
![](https://blog.kakaocdn.net/dn/4mGFf/btsBjRUIZq7/ipzdBmdWNJnKFmdDwC1DAK/img.png)
구조가 얽혀 있는 곳에서는 「어떤 구조에 속하는가」가 계층적으로 표시됩니다.
![](https://blog.kakaocdn.net/dn/cM5z6a/btsBiXumdla/1Gl2Blht6mf7iGor3AvjBk/img.png)
보다 자세한 내부 구조를 확인하고 싶은 경우는 확대하면 됩니다.
![](https://blog.kakaocdn.net/dn/bVdF6S/btsBo9tvn5h/iehPKXhZRNbGp5Mpv0NFgK/img.png)
다양한 계산을 바탕으로 다음 1 문자 예측이 'A'로 출력되었습니다. 이 예측을 입력에 피드백함으로써 차례차례로 예측을 할 수 있다는 것입니다.
![](https://blog.kakaocdn.net/dn/bIpnEc/btsBjroooxe/0RtwMq7hjBuHG0TOqWhh3k/img.png)
사이트에서는 내부 구조 각각의 상세한 해설도 읽을 수 있으므로, 궁금하신 분은 꼭 확인해 보세요.
![](https://blog.kakaocdn.net/dn/bhWHwj/btsBl4ss2nP/eEpJq1sHQYaYMgi6LXBKI0/img.png)
덧붙여 해설에서는 약 8만 5000 파라미터의 「nano-gpt」를 사용했습니다만, nano-gpt를 1억 2400만 파라미터의 GPT-2(small)와 비교하면 아래 그림과 같습니다.
![](https://blog.kakaocdn.net/dn/b1jILJ/btsBrdPqipp/89rVRe5Ssnv09GUMU54q51/img.png)
그리고 약 1750억 파라미터의 GPT-3의 크기는 아래 그림과 같습니다. 3D로 보여주기 때문에 얼마나 모델 사이즈가 다른 지도 일목요연합니다.
![](https://blog.kakaocdn.net/dn/J6aNW/btsBj8vjNvm/hVyOjuksluYBruW3yNQkCK/img.png)
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
구글 딥마인드가 GPT-4를 넘는 성능의 멀티모달 AI「Gemini」를 릴리즈 (66) | 2023.12.08 |
---|---|
워싱턴 대학과 프린스턴 대학이 LLM에서 사전 학습된 문장을 검출하는 새로운 도구를 발표 (65) | 2023.12.06 |
Amazon의 AI 'Amazon Q'는 심각한 환각으로 AWS 데이터센터의 위치 등의 기밀 데이터를 유출하고 있다는 지적 (2) | 2023.12.06 |
구글 DeepMind가 "AI는 인간처럼 사회 학습으로 기술을 습득할 수 있다"는 것을 입증했다고 주장 (3) | 2023.12.06 |
AI 「전자 혀」를 펜실베니아 주립대학 연구팀이 개발 (59) | 2023.12.03 |
아이폰의 AI 여친 앱, 「Dolores」개발자가 앱의 개발 경위와 교훈을 말하다 (82) | 2023.12.01 |
최신 정보에도 대응할 수 있는 GPT, PPLX Online LLMs의 「pplx-7b-online」&「pplx-70b-online」리뷰 (53) | 2023.12.01 |
AI와의 공동 창작으로 「블랙 잭」신작을 완성하는「TEZUKA2023 프로젝트」를 주간 소년 챔피언에서 공개 (74) | 2023.12.01 |