본문 바로가기
AI · 인공지능/AI 칼럼

멀티 모달 LLM의 활용 방법과 기술 해설

by 두우우부 2024. 4. 16.
반응형

3줄 요약

  • GPT-4V나 Gemini 등, 대규모 언어 모델(LLM)을 화상이나 음성 등 복수의 모달리티에 대응시킨 멀티 모달 LLM이 등장하기 시작하고 있다
  • LLM을 멀티 모달화함으로써 다양한 혜택을 누릴 수 있습니다.
  • 학습된 모델끼리를 조합한 구조로 하여 사전 지식을 활용함으로써 학습의 효율화를 실현한다.

 

소개

Elith에서 기계 학습 엔지니어를 하고 있는 나리키입니다.

ChatGPT를 비롯한 다양한 제품이 등장해 LLM이 급속히 보급되고 있는 가운데, 최근 그들에게 이미지나 음성 등의 모달리티를 입력할 수 있게 되는 등 LLM의 멀티 모달화가 진행되고 있습니다.
그 예로는 화상 입력에 대응하는 GPT-4V나, 화상이나 음성, 동영상을 이용한 대화가 가능한 Gemini등이 있습니다. 이와 같이 이미지나 음성 등의 텍스트 이외의 모더리티를 처리할 수 있게 함으로써 LLM의 활용 방법이나 적용 범위가 보다 크게 넓어지고 있습니다.
이 기사에서는 그런 LLM에 텍스트 이외의 모달리티를 입력할 수 있도록 한 멀티 모달 LLM에 대해 자세히 설명합니다.

LLM에서 멀티모달 LLM으로 전환

멀티모달 LLM의 상세한 해설에 들어가기 전에 LLM이 멀티모달화에 이른 흐름에 대해 해설해 갑니다.
우선 일반 LLM을 살펴보면 다양한 분야에 걸친 범용적인 지식과 추론 능력, 다양한 지시문에 대한 응답 능력 등 매우 높은 언어 능력을 갖습니다. 이러한 능력이 기반이 되어 인간과 거의 똑같이 상호작용하는 것이 가능해지고 있습니다.
한편, 텍스트 밖에 입출력할 수 없다고 하는 단점을 가집니다. 이것을 해결하는 것이 멀티 모달 LLM입니다. 구체적으로 LLM을 멀티모달화하는 데는 다음 3가지 장점이 있다.

  1. 다양한 모달리티를 다루는 분야에 LLM을 활용
    다양한 모달리티를 다루는 분야의 예로 의료와 로보틱스, 전자상거래 등이 있습니다. 예를 들면, 의료에서는 CT 화상이나 심전도, 로보틱스에서는 주위의 시각 정보와 같은 텍스트 이외의 정보를 통합해 처리할 필요가 있어, 멀티 모달화하는 것으로 이러한 분야에 LLM을 활용하는 것이 가능하게 됩니다.
  2. 유저 인터페이스의 유연성 향상
    음성에 의한 대화나 실시간으로 동영상을 이용한 대화 등 LLM이 멀티 모달화함으로써 커뮤니케이션 방법의 폭이 넓어, 용도나 필요에 맞추어 보다 적절한 유저 인터페이스를 선택하는 것 가능합니다.
  3. LLM에 관한 지견이나 기술의 이용
    LLM을 베이스의 모델로 하는 것으로, 최적화 방법이나 학습·추론 프레임워크, 스케일링 로우 등 LLM 커뮤니티가 수년에 걸쳐 축적해 온 지견이나 기술을 응용하는 것이 가능 입니다.

이러한 3가지 장점에서 향후 멀티모달 LLM의 개발은 더욱 발전해 나갈 것으로 보입니다.

멀티 모달 LLM의 활용 방법

멀티 모달 LLM을 이용한 연구는 많이 있으므로, 이번에는 그 활용 방법으로 3가지로 크게 나누어 「사람의 이해의 어시스트」 「생성・편집」 「자율 에이전트」로 나누어 해설해 갑니다 .

사람이 이해하는 어시스트

멀티모달 LLM을 활용하여 질문에 대답하거나 해설·요약을 합니다. 이때 멀티모달화함으로써 이미지나 음성을 활용한 질문이 가능합니다.
이 연구 예로는 의료 분야에 특화된 멀티 모달 LLM인 Med PaLM M(그림 1)이 있으며, 텍스트 외에 방사선 화상이나 유방 조영술, 환부 화상, 게놈 등을 입력할 수 있습니다. 또, 대응하는 태스크의 종류도 화상을 이용한 질문 회답, 리포트 작성, 요약, 게놈 변이 검출 등 다방면에 걸쳐, 의료 분야의 보다 다양한 의문에 대답하는 것이 가능합니다.
이 연구 이외에도 음성, 동영상, 위생 사진, 화학 구조 등 다양한 모달리티로 연구가 진행되어 다양한 질문에 대한 답변이 가능해지고 있습니다.

그림 1. Med PaLM M이 지원하는 양식과 작업

생성·편집

멀티모달 LLM을 활용하여 이미지나 음성 등 텍스트 이외의 모달리티를 생성・편집합니다. 멀티모달 LLM을 이용하는 것으로 지금까지는 없었던 새로운 생성·편집 방법이 실현됩니다.
이 연구 예로서 CoDi-2(그림 2)에서는 지시문 안에 화상이나 음성을 포함할 수 있어, 2개의 화상의 특징을 통합한 화상의 작성이나, 음성을 이용한 화상의 편집 등이 가능 입니다. 구체적인 예로서, 가능합니다.
또 이 외에도 동영상이나 음성, 사람 동작 등의 생성에 응용한 연구도 등장하고 있어 다양한 모달리티의 출력이 가능해지고 있습니다.

그림 2. CoDi-2 : 멀티 모달 지시문에 의한 이미지 생성 및 편집 가능

 

반응형

자율 에이전트

멀티모달 LLM을 에이전트로 하여 주변 환경을 시각 정보 등을 통해 인식하면서 주어진 지시문을 실행합니다.
이 연구 예로서 RT-2(그림 3)에서는 자연 언어로 로봇을 조작할 수 있습니다. 또한 LLM의 높은 언어능력을 활용하여 추상적인 표현을 한 지시문에 의한 실행이 가능하며, “피곤한 사람에게는 어떤 음료가 최적?”이라는 질문에 대해 에너지 음료를 잡는 것이 수 있습니다.
자율 에이전트는 로보틱스 이외에도 자동 운전, 3D 게임 등에 응용한 것이 있습니다. 또, UI 조작의 자동화에 활용한 연구가 Google이나 Tencent로부터 등장하고 있어, 지시만으로 스마트폰이나 PC를 조작할 수 있게 되는 시대도 그렇게 멀지 않다고 생각됩니다.

그림 3. RT-2: 언어를 이용한 다양한 지시에 따라 로봇을 동작 가능

이상으로 기존의 멀티모달 LLM을 이용한 연구를 활용 방법을 바탕으로 3가지로 분류하여 해설했습니다.
이후에는 멀티모달 LLM 구축방법에 들어갑니다.

멀티 모달 LLM 구축 방법

모델 구조

멀티모달 LLM은 LLM을 포함한 사전 학습된 모델을 결합하여 구축합니다. 이 때, 그대로는 모델끼리의 특징량의 차원이 다르기 때문에, 커넥터라고 하는 네트워크를 사이에 끼우는 것에 의해 그것들을 접속합니다.
구체적인 예로서, 화상을 입력하고 싶은 경우에는 LLM, ViT 등의 화상 인코더를 준비하고, 커넥터에 의해 화상 인코더가 출력하는 화상 특징량을 토큰에 매핑함으로써 LLM에 화상 정보의 입력을 가능하게 하고 있다. 합니다.

마찬가지로 화상을 출력하고 싶은 경우에도 LLM과 Diffusion 등의 화상 디코더를 준비하고 LLM에서 출력되는 토큰을 커넥터에 의해 화상 특징량에 매핑하여 화상 디코더에 입력함으로써 화상의 출력을 가능하게 한다. 있습니다.
이와 같이, 학습이 끝난 것을 모델을 커넥터에 의해 접속하는 구조로 하는 것으로, 각 모델이 가지는 사전 지식의 활용이 가능하게 되어, 학습을 효율화할 수 있습니다.

그림 4. 이미지 입출력에 대응하는 멀티모달 LLM의 개략도

학습

학습은 주로 사전 학습과 인스트럭션 튜닝의 2단계로 구성됩니다. 각각에서 사용되는 데이터도 근거로 순서대로 해설해 갑니다.

1. 사전 학습

사전 학습은 각 양식 간의 정렬을 수행합니다. 예를 들어 이미지 입력을 하고 싶은 경우는, 이미지 캡션 데이터를 준비해, 이미지를 입력해 캡션문이 출력되도록 학습이 됩니다. 이 방법으로 이미지 정보와 텍스트 정보를 모델 내에서 연결할 수 있습니다.

이 때, 화상과 함께 입력되는 지시문에는 「이 화상을 설명해 주세요」라고 하는 사전에 정해진 것이 사용됩니다. 또한 학습에서는 기본적으로 학습된 모델의 가중치가 고정되고 커넥터의 가중치만 업데이트됩니다.
사전 학습의 장점으로는 캡션 데이터와 같은 기존에 있는 대량의 데이터 세트를 활용할 수 있는 점이 있습니다. 반면에 이러한 데이터의 특성상 지시와 답변 모두에서 다양성과 깊은 추론이 부족하다는 단점이 있습니다.
이 단점을 해소하는 것이 2단계째의 인스트럭션·튜닝입니다.

2. 인스트럭션 튜닝

명령 튜닝은 일반 LLM과 마찬가지로 다양한 지시문에 원하는 답변을 출력하도록 학습합니다.
이 때, 다양한 질문에 대해서 적절한 회답을 모은 데이터 세트를 이용할 필요가 있어, 이 구축에는 사람의 손으로 행해지는 경우가 대부분입니다. 그 때문에, 인스트럭션·튜닝의 단점으로서, 학습용 데이터 세트의 구축에 상당한 노력이 걸리는 점을 들 수 있습니다.
한편, 이것을 자동화하고 있는 경우도 있어, 화상 입력에 대응한 멀티 모달 LLM인 LLAVA에서는, 화상을 캡션문과 바운딩 박스라고 하는 2개의 기호 표현으로 변환하는 것으로, 텍스트만에 대응한 GPT -4에 화상정보를 입력할 수 있도록 하고, 질문·응답문을 자동 생성시키고 있습니다.

그림 5. LLaVA에서 명령 데이터 자동 생성

결론

멀티모달 LLM은 LLM의 높은 언어능력을 다양한 모달리티로 활용할 수 있도록 한 멀티모달 모델로, 단순히 입출력할 수 있는 모달리티를 늘릴 수 있을 뿐만 아니라 그 모달리티를 곱한 유연한 지시문을 입력할 수 있습니다. 또한 LLM을 포함한 학습된 모델을 조합한 모델 구조로 함으로써 이러한 모델이 가지는 사전 지식을 활용한 효율적인 학습이 가능합니다.
멀티모달 LLM이 대응하는 모달리티는 서서히 늘어나고 있으며, 이러한 조합에 의해 응용 범위나 활용의 폭이 무한히 퍼져 나갑니다. 앞으로 다양한 분야와 장면에서 멀티모달 LLM이 활용되고 LLM의 보급은 더욱 가속해 나갈 것으로 보입니다.

마지막으로 홍보하지만, 주식 회사 Elith는 최첨단 AI 기술을 비즈니스에 구현하고 가치를 창출하는 테크 컴퍼니입니다.
최근에는 LLM의 활용에 관해서 다양한 대처를 하고 있어, 다수의 이벤트에도 등단하고 있습니다.
LLM을 활용한 비즈니스 과제 해결에 흥미가 있는 분은, X(구 Twitter) 경유나 Elith의 Web 페이지 경유로, 부디 부담없이 질문해 주세요.

참고

  1. Team, Gemini, et al. "Gemini: a family of highly capable multimodal models." arXiv preprint arXiv:2312.11805 (2023).
  2. Kondratyuk, Dan, et al. "Videopoet: A large language model for zero-shot video generation." arXiv preprint arXiv:2312.14125 (2023).
  3. Liu, Haotian, et al. "Visual instruction tuning." Advances in neural information processing systems 36 (2024).
  4. Tu, Tao, et al. "Towards generalist biomedical ai." NEJM AI 1.3 (2024): AIoa2300138.
  5. Tang, Zineng, et al. "Codi-2: In-context, interleaved, and interactive any-to-any generation." arXiv preprint arXiv:2311.18775 (2023).
  6. Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning. PMLR, 2023.
  7. Liu, Haotian, et al. "Visual instruction tuning." Advances in neural information processing systems 36 (2024).
  8. Zhang, Duzhen, et al. "Mm-llms: Recent advances in multimodal large language models."
  9. Chip Huyen. "Multimodality and Large Multimodal Models (LMMs)"
17
 
 
반응형