본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 100만 토큰 초과의 콘텐츠 생성을 가능하게 하는 차세대 AI 아키텍처 'Megabyte' 발표

by 두우우부 2023. 5. 26.
반응형

Meta의 AI 연구팀이 100만 토큰을 넘는 텍스트나 이미지, 오디오 형식 등의 콘텐츠 생성 가능성을 가진 「Megabyte」의 아키텍처를 발표했습니다. 

GPT-4나 Bard등의 AI 모델의 기반 아키텍쳐는 「Transformer」입니다만, Megabyte를 AI 모델에 채용하는 것으로, 보다 고도로 숙련된 AI 모델의 개발이 가능하다고 Meta는 주장하고 있습니다.

[2305.07185] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
https://doi.org/10.48550/arXiv.2305.07185


Meta AI Unleashes Megabyte, a Revolutionary Scalable Model Architecture - Artisana
https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture



OpenAI가 개발하는 GPT-4와 같은 고성능 생성 AI 모델은 사용자가 복잡한 입력을 이해하고 긴 문장을 생성하는 데 도움이되는 Transformer 아키텍처를 기반으로 개발되었습니다. 

그러나 Meta의 AI 연구팀은 "Transformer 아키텍처에는 두 가지 제약이 있다"고 지적합니다.

제약 1

사용자의 입력과 AI 모델의 출력이 길어짐에 따라 Transformer 아키텍처에서 계산량이 많아지고 토큰 량이 많은 시퀀스를 효율적으로 처리하는 것이 어려워진다는 점입니다.

제약 2

언어 모델이 일련의 수학적 연산과 변환을 통해 단어를 이해하고 처리하는 것을 돕는 "피드 포워드 신경 네트워크"가 Transformer 아키텍처에서는 문자 그룹별로 독립적으로 단독 동작하기 때문에, 결과적으로 계산량이 많아져 토큰량이 많은 시퀀스의 처리가 곤란해져 버린다는 점입니다. 

이러한 요인들로부터, 현재의 Transformer 아키텍처는 토큰 양이 많은 입출력을 효율적으로 처리하는 점에서 한계에 도달하고 있을 가능성이 지적되고 있습니다. 따라서 Meta의 AI 연구팀은 이러한 한계를 해결하고 콘텐츠 생성의 새로운 가능성을 이끌어내는 데 중점을 둔 AI 아키텍처를 개발했습니다. 

Meta가 개발한 Megabyte는 I/O와 관련된 시퀀스를 개별 토큰이 아닌 '패치'별로 분할하는 독자적인 시스템을 채택하고 있습니다. 각 패치는 로컬 AI 모델에 의해 처리된 다음 글로벌 AI 모델이 모든 패치를 통합하여 최종 출력을 수행합니다.
 



Megabyte의 접근 방식은 현재의 AI 모델이 직면하고 있는 과제를 해결하는 것으로 알려져 있으며, 단일 피드포워드 신경망이 여러 토큰을 포함하는 패치로 병렬 작동함에 따라, 지금까지의 과제를 극복할 수 있을 것이라 여겨지고 있습니다.

토큰이 아닌 패치 기반으로 시스템을 구축하면 계산을 순차적으로 수행하는 기존의 Transformer 아키텍처와는 달리 Megabyte에서는 계산을 병렬로 수행할 수 있습니다. 병렬 처리를 통해 Megabyte를 탑재한 AI 모델의 파라미터가 많은 경우에도 Transformer 아키텍처 기반의 AI 모델보다 상당한 효율화를 실현할 수 있습니다. 연구팀이 실시한 실험에서 파라미터 수가 고작 15억인 Megabyte가 파라미터 수 3억 5,000만인 Transformer 모델보다 약 40% 빠르게 시퀀스를 생성할 수 있었습니다.
 


게다가 GPT-4에서는 3만 2000 토큰, Anthropic의 텍스트 생성 AI 「Claude」에서는 10만 토큰이 생성의 상한이었지만, Megabyte 모델에서는 120만 토큰을 넘는 시퀀스를 처리할 수 있습니다. 120만 토큰을 처리할 수 있는 Megabyte 모델은 콘텐츠 생성의 새로운 가능성을 열어, 현재 AI 모델의 한계를 넘는 아키텍처가 될 것으로 기대되고 있습니다.

OpenAI의 리드 AI 엔지니어인 안드레이 카퍼시는 "대규모 언어 모델에서 토큰화를 폐지할 수 있다는 점에서 메가바이트는 유망하다."라고 트윗. 게다가 "ChatGPT는 생성형 글쓰기와 요약 등의 작업에 뛰어나지만, 요약된 문장을 복원하는 작업에 약한 것은 토큰화가 요인입니다"라고 적고 있습니다.


 
Meta의 AI 연구팀은 Megabyte 아키텍처가 획기적인 기술임을 인정하면서도 최적화를 위한 다른 수단이 있을 가능성을 시사합니다. 기술 뉴스 미디어 Artisana는 "패치 기술을 채용한 보다 효율적인 엔코더 모델이나, 시퀀스를 보다 작은 블록으로 분해하기 위한 디코드 모델 등의 분야에 있어서, 기존의 Transformer 아키텍처의 기능을 확장해, 차세대 모델에 대응할 수 있을 가능성이 있습니다."라고 말했습니다.

반응형