본문 바로가기
AI · 인공지능/AI 뉴스

대규모 언어 모델의 구조를 3D로 시각화하는 사이트 「LLM Visualization」

by 두우우부 2023. 12. 5.
반응형

 
 
ChatGPT와 같은 채팅 AI는 내부적으로 많은 계산을 수행하여 문장을 생성합니다. LLM Visualization 은 내부적으로 어떤 파라미터가 저장되어 있어 어떻게 계산이 이루어지고 있는지 3D 형식으로 보기 쉽게 시각화해 주는 사이트입니다.

LLM Visualization
https://bbycroft.net/llm



사이트에 액세스 하면 이렇습니다. 화면 왼쪽에 해설, 오른쪽에 3D 모델이 설치되어 있습니다. "Continue"를 클릭합니다.



해설에서는 약 8만 5000 파라미터의 모델 「nano-gpt」로 3 종류의 문자를 재정렬하는 태스크를 실시해, 대규모 언어 모델 내부의 계산을 확인해 간다고 합니다. 스페이스바를 누르면 다음 섹션으로 진행합니다.



해설의 단계에 따라 3D 모델의 주목해야 할 곳이 활성화되기 때문에, 어느 곳의 이야기를 하고 있는지 알기 쉽게 되어 있습니다.



3D 모델의 파트에 커서를 올리면 「어떤 구조에 속한 파트인가」, 「행수」, 「열수」라는 파라미터를 확인할 수 있습니다. 아래 그림의 「Token Embed」의 경우는 「Embedding」을 구성하고 있어 행수가 매입의 사이즈인 채널수를 나타내는 「C」, 열수가 어휘 수를 나타내는 「n_vocab」 라고 표시됩니다. nano-gpt는 매우 작은 모델이며, 「A」,「B」,「C」라는 3개의 문자 밖에 취급할 수 없기 때문에 Token Embed의 열수도 3열로 된다는 것입니다.



계산에 의해 결과를 구하는 부분에 커서를 맞추면 계산식을 볼 수도 있습니다. "Input Embed"는 "Token Embed"와 "Position Embed"를 더하여 구할 수 있습니다. 덧붙여 녹색의 블록은 입력을 바탕으로 계산해 값을 구하는 부분으로, 청색의 블록은 트레이닝 중에 값을 조정해 두는 파라미터가 되는 부분이라고 합니다.



구조가 얽혀 있는 곳에서는 「어떤 구조에 속하는가」가 계층적으로 표시됩니다.



보다 자세한 내부 구조를 확인하고 싶은 경우는 확대하면 됩니다.



다양한 계산을 바탕으로 다음 1 문자 예측이 'A'로 출력되었습니다. 이 예측을 입력에 피드백함으로써 차례차례로 예측을 할 수 있다는 것입니다.



사이트에서는 내부 구조 각각의 상세한 해설도 읽을 수 있으므로, 궁금하신 분은 꼭 확인해 보세요.



덧붙여 해설에서는 약 8만 5000 파라미터의 「nano-gpt」를 사용했습니다만, nano-gpt를 1억 2400만 파라미터의 GPT-2(small)와 비교하면 아래 그림과 같습니다.



그리고 약 1750억 파라미터의 GPT-3의 크기는 아래 그림과 같습니다. 3D로 보여주기 때문에 얼마나 모델 사이즈가 다른 지도 일목요연합니다.

 

반응형