본문 바로가기
AI · 인공지능/AI 뉴스

Google이 AI로 무한 길이의 텍스트 처리 능력을 제공하는 기술 발표

by 두우우부 2024. 4. 16.
반응형

 
 
Google의 연구원이 대규모 언어 모델(LLM)이 무한한 길이의 텍스트를 처리하게 하는 방법이라는 Infini-attention 에 관한 논문을 발표했습니다.

[2404.07143] Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
https://arxiv.org/abs/2404.07143

 

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach is a new attention technique dubbed Infini-attention. T

arxiv.org

Google's new technique gives LLMs infinite context | VentureBeat
https://venturebeat.com/ai/googles-new-technique-gives-llms-infinite-context/

 


Google Demonstrates Method to Scale Language Model to Infinitely Long Inputs

 

Google Demonstrates Method to Scale Language Model to Infinitely Long Inputs

Infini-attention reuses key, value, and query states from standard attention computations for long-term memory consolidation and retrieval.

analyticsindiamag.com



'컨텍스트 윈도우'라는 프레임이 있습니다.

예를 들어 ChatGPT의 경우 AI와의 대화량이 '컨텍스트 윈도우'를 초과하면 성능이 저하되고 대화의 시작 부분에 포함된 토큰이 삭제됩니다.


따라서 처리 가능한 토큰 양의 증가는 경쟁 우위 확보 및 모델 개선을 위해 중요한 요건이 되었습니다.

 

반응형



Transformer-XL과 달리 Infini-Transformers는 이전 세그먼트의 KV 어텐션 상태를 재사용하여 압축 메모리로 전체 컨텍스트 기록을 유지함으로써 효율적인 메모리 및 계산 사용을 달성합니다.


포인트는, 메모리와 계산량이 한정된 상태에서도 사용할 수 있는 기법이라는 점에서, 실험으로 장문의 언어 모델링 벤치마크를 실시했는데, Infini-attention을 사용한 모델은 기준이 되는 모델의 값을 웃돌아, 메모리 사이즈 기준으로 114배의 이해율을 달성했다는 것.

최대 5K 시퀀스 길이의 패스키 인스턴스로 미세 조정된 1B 모델은 1M 길이의 문제를 해결할 수 있으며, 이론적으로는 품질을 유지한 채 더 많은 토큰을 똑같이 처리할 수 있다고 합니다.

Infini-attention 아키텍처




역시 넘사벽 구글 형님...

 

반응형