본문 바로가기
AI · 인공지능/AI 뉴스

음성·텍스트·이미지·음악의 입출력에 대응한 멀티 모달 LLM「AnyGPT」가 등장

by 두우우부 2024. 2. 23.
반응형

 
 
음성 · 텍스트 · 이미지 · 음악 등 여러 종류의 데이터를 한 번에 처리할 수 있는 멀티 모달 대규모 언어 모델(LLM) 「AnyGPT」가 발표되었습니다.

AnyGPT
https://junzhan2000.github.io/AnyGPT.github.io/

AnyGPT

We introduce AnyGPT, an any-to-any multimodal language model that utilizes discrete representations for the unified processing of various modalities, including speech, text, images, and music. AnyGPT can be trained stably without any alterations to the cur

junzhan2000.github.io


기존의 대규모 언어 모델(LLM)의 아키텍처나 트레이닝 패러다임의 수정 없이 안정적으로 트레이닝할 수 있는 새로운 멀티모달 LLM이 AnyGPT입니다.

AnyGPT는 데이터 수준의 전처리에만 의존하며 새로운 언어를 통합하는 것처럼 새로운 양식을 LLM에 원활하게 통합할 수 있습니다.

멀티 모달 얼라인먼트의 사전 트레이닝을 위해 멀티 모달 텍스트 중심의 데이터 세트를 구축하여 생성 모델을 이용하여 대규모 "Any-to-Any"(어떤 데이터 형식이든 임의의 데이터 형식으로 출력 가능) 멀티모달 명령어 데이터 세트를 구축합니다.

AnyGPT의 멀티모달 명령어 데이터세트는 다양한 모달리티를 복잡하게 결합한 멀티턴 대화의 10만 8000개 샘플로 구성하여 모델이 멀티모달 입력과 출력의 모든 조합을 처리할 수 있도록 했습니다. 또한 개발팀은 AnyGPT가 모든 모달리티에 걸쳐 특수화된 모델에 필적하는 퍼포먼스를 달성하면서 "Any-to-Any" 멀티모달의 대화를 촉진할 수 있음을 알았고, 이산 표현이 LLM 내 복수의 모달리티를 효과적이고 편리하게 통합할 수 있음을 입증하는 데 성공했습니다.

AnyGPT의 모델 아키텍처의 개요를 나타낸 것이 아래의 그림입니다. AnyGPT는 음성, 텍스트, 이미지 및 음악이라는 여러 종류의 데이터를 개별적으로 토큰화하고 있으며, 이에 따라 LLM은 멀티모달의 이해와 생성을 자체 회귀적으로 수행합니다. 데이터 전처리 및 후처리만 필요하며 모델 아키텍처 및 교육 목표를 변경할 필요가 없습니다.



AnyGPT의 멀티모달 명령어 데이터세트는 "AnyInstruct"라고 불리며, 이 빌드 프로세스는 "멀티모달 요소를 포함한 텍스트 기반 상호작용 생성"과 "텍스트에서 멀티모달로 변환"이라는 두 가지 단계로 나뉘어 있습니다. 첫 번째 단계의 "멀티 모달 요소를 포함하는 텍스트 기반 대화 생성"에서는 주제 시나리오 텍스트 형식의 대화를 생성하고, 두 번째 단계의 "텍스트에서 멀티 모달로 변환"에서는 최종 멀티 모달 대화가 생성됩니다.



AnyGPT는 멀티모달 LLM이므로 음성, 텍스트, 이미지, 음악에서 다양한 형식의 데이터를 출력할 수 있습니다. 프롬프트에서 여러 데이터 형식을 입력할 수도 있으며, 예를 들어 "이 이미지에서 음악을 생성해 주세요"나 "이 음악을 이미지로 변환해 주세요"라는 프롬프트도 사용할 수 있습니다.

실제로 AnyGPT에서 어떤 음성, 텍스트, 이미지, 음악을 출력할 수 있는지는 아래 데모 영상을 참고하세요.

Demo for "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling" - YouTube

 

"최근 피곤한데, 릴랙스 하기에는 어디가 적합해?"라는 음성 텍스트를 입력했을 때에 출력된 이미지가 아래.



그 밖에도, 음악 파일을 입력해 「이 음악을 이미지로 변환할 수 있을까?」라고 음성으로 입력했을 때, 출력된 이미지가 아래.



또한 아래 이미지를 입력하고 이를 '음악으로 변환하세요'라고 입력합니다.



그 결과 출력된 음악은 다음과 같습니다.


반응형