본문 바로가기
AI · 인공지능/이미지 생성 AI

멀티 모달 모델 오픈 소스 "OpenFlamingo"가 등장, 무료 데모도 공개

by 두우우부 2023. 3. 31.
반응형

 

DeepMind의 멀티 모달(시각, 청각을 비롯한 여러 인터페이스를 통해 정보를 주고받는 것을 말하는 개념) 모델 "Flamingo"를 오픈 소스로 재현한 프레임 워크 "OpenFlamingo"가 출시되었습니다. 이를 통하여 사용자면 텍스트 및 이미지가 포함된 대규모 코퍼스(Corpus : 자연어 문장을 구조화하고 대규모로 집적한 것)를 쉽게 사용할 수 있습니다.

Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION
https://laion.ai/blog/open-flamingo/

Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION

<p><strong>Overview.</strong> We are thrilled to announce the release of OpenFlamingo, an open-source reproduction of DeepMind's Flamingo model. At its core,...

laion.ai

GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models
https://github.com/mlfoundations/open_flamingo

GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models

An open-source framework for training large multimodal models - GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models

github.com

Gradio
https://7164d2142d11.ngrok.app/

Gradio

Build & Share Delightful Machine Learning Apps

gradio.app



OpenFlamingo는 이미지 생성 AI Stable Diffusion의 학습에도 사용된 데이터 세트, "LAION-5B"를 개발한 독일의 비영리 단체 'LAION'에 의해 개발되었습니다.

LAION은 다양한 시각 언어 태스크에 임할 수 있는 멀티 모달 시스템을 개발하는 것을 목표로 OpenFlamingo를 개발하였습니다. 최종적으로는 GPT-4에 필적하는 것을 목표로 하고 있으며, 이 목표를 달성하기 위하여 Flamingo 모델의 오픈 소스판을 작성했다고 합니다.

OpenFlamingo는 GitHub에 리포지토리가 공개되어 있으며 별도 데모 페이지도 개설되어 있습니다. 이 데모 페이지에서는 이미지 캡션 생성과 동물 인식, 객체 카운트, 이미지에 관한 질의응답의 4가지를 이용할 수 있으며, 하나씩 시험해 보았습니다.


1. 이미지에 대한 캡션을 생성

업로드된 이미지에 대해 OpenFlamingo가 어떤 그림인지 설명하는 데모입니다. 샘플 이미지가 2장 준비되어 있어, 한 장은「전철 안에서 휴대전화를 보는 남녀」라고 하는 대답이, 다른 한 장은 「흑백 타일 바닥이 있는 호화스러운 응접실」이라는 대답이 출력되고 있습니다.



다른 이미지로 시도해 보겠습니다. 우선 약관에 동의하기 위해 체크 박스를 클릭하여 이미지를 업로드합니다. Run model을 클릭하고 잠시 기다립니다.



실제로 출력된 답변은 이렇습니다. "피렌체 대성당 앞에서 개와 포즈를 취하는 여성"이라고 답변했습니다. 상황뿐만 아니라 장소까지 말해주는 점은 놀라운 일이지만, 이 사진의 게시자에 의하면 장소는 피렌체가 아니라 그로세토(Grosseto)입니다. 그럼에도 불구하고, 둘 다 이탈리아의 토스카나주에 있는 도시이며, 까비였다는 것은 틀림없습니다.


2. 동물 인식 

OpenFlamingo가 사진에 찍힌 동물이 무엇인지 맞추는 데모입니다. 첫 번째 친칠라, 두 번째 시바견을 올바르게 대답하고 있으며 「칠레에서 자주 볼 수 있다」, 「일본에서 유명」등 약간의 해설도 포함되어 있습니다.



플라밍고 이미지를 사용해 다시 테스트해 보니 올바른 답변이 표시되었습니다.


3. 사진에 찍힌 객체의 수 맞추기



조금 난잡한 사진으로 테스트해 보니, 플라밍고 수를 심각한 오차로 틀렸습니다. ㅠㅠ


4. 이미지를 보여주고 텍스트를 입력하면 OpenFlamingo가 답변을 출력

첫 번째는
Q : 소화전의 색은 무엇입니까?
A : 검정과 노랑

두 번째는
Q : 남자는 무엇을 잡으려 하는가?
A : 연

세 번째는
Q : 사람이 입고 있는 옷은 무슨 색이고, 몇 살 정도로 보이나?
A :  청색, 10세


OpenFlamingo는 Flamingo 논문에서 제안한 것과 동일한 아키텍처를 구현했지만, Flamingo는 교육용 데이터는 공개되지 않았기 때문에, OpenFlamingo의 교육에는 오픈 소스 데이터 세트를 사용했습니다. 이번에 공개된 OpenFlamingo-9B는 500만 개의 샘플을 가진 Multimodal C4 데이터 세트와 1,000만 개의 샘플을 가진 LAION-2B로 훈련했습니다.

LAION은 "OpenFlamingo-9B 모델의 첫 번째 체크포인트를 공유합니다. 이 모델은 아직 완전히 최적화된 것은 아니지만 이 프로젝트의 가능성을 보여줍니다. 비록, 유해하게 사용될 수도 있다는 것을 알지만, 연구 커뮤니티에게 있어서 대규모 멀티 모달 모델의 폐해를 연구하는 것은 중요하며, 이러한 모델을 오픈 소스화해 나가는 것으로 커뮤니티가 미래 모델에서 이러한 폐해를 완화시킬 더 좋은 방법을 개발할 수 있을 것이라고 믿고 있습니다."

반응형