본문 바로가기
AI · 인공지능/이미지 생성 AI

Meta가 이미지를 텍스트로, 텍스트를 이미지로 변환하는 AI 「CM3leon」 발표

by 두우우부 2023. 7. 19.
반응형

 

 

Facebook 및 Instagram과 같은 SNS를 개발하는 Meta의 AI 연구소인 Meta AI 가 텍스트에서 이미지를 생성하거나 이미지에서 텍스트를 생성할 수 있는 단일 AI 모델  CM3leon(카멜레온)」을 발표했습니다.

Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images

 

Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images

CM3leon is the first multimodal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multitask supervised fine-tuning (SFT) stage. This recipe is simple, produces a

ai.meta.com

Meta claims its new art-generating model is best-in-class | TechCrunch

 

Meta claims its new art-generating model is best-in-class | TechCrunch

Meta claims that its new AI art-generating model is superior to existing ones -- and far more computationally efficient.

techcrunch.com



CM3leon은 REALM과 세컨드 멀티 태스크 미세 조정(STF) 단계를 포함하는 텍스트 전용 언어 모델을 사용하여 훈련된 최초의 멀티모달 모델입니다.

CM3leon은 간단하고 강력한 모델을 생성하여 토크나이저 기반의 Transformer 를 기존의 확산 모델만큼 효율적으로 훈련할 수 있습니다. 게다가 Transformer 기반의 트레이닝보다 5배 적은 컴퓨팅으로 트레이닝해도, 텍스트로부터 이미지를 생성하는 퍼포먼스로 최우수 언어 모델과 동일한 퍼포먼스를 실현할 수 있습니다.

또한 CM3leon은 낮은 훈련 비용과 추론 효율을 유지하면서 자기 회귀 모델(과거의 값이 현재의 값에 영향을 미친다는 점을 전제로 과거 값과 현재 값의 관계를 모형화한 수학적 모델) 다용도성과 유효성을 갖추고 있습니다. 이것은 다른 이미지 및 텍스트 콘텐츠의 임의의 시퀀스를 조건으로 텍스트 이미지 시퀀스를 생성할 수 있기 때문에 인과 마스크 혼합 모달 모델(CM3)이기도 하다고 Meta는 설명합니다.

일반적으로 텍스트 뿐인 생성 AI는 지시 프롬프트를 따르는 능력을 향상하기 위해 다양한 작업에 맞게 다중 작업 지시가 조정됩니다. 한편, 이미지 생성 모델은 특정 작업에 특화되어 있다고 합니다. 대조적으로, CM3leon은 텍스트와 이미지를 모두 생성할 수 있도록 대규모 멀티 태스킹 명령 튜닝을 적용하여 "이미지 캡션 생성", "시각적 질문 응답", "기본 편집", "조건부 이미지 생성"과 같은 성능이 크게 향상되었습니다.

 

가장 널리 사용되는 이미지 생성 벤치마크인 zero-shot MS-COCO에서 성능을 비교한 결과, CM3Leon은 FID(Fréchet Inception Distance) 점수에서 '4.88'을 달성하고 있으며, 텍스트에서 이미지를 생성하는데 최우수 모델 수준의 성능을 실현하고 있습니다. 덧붙여 이것은 Google의 이미지 생성 AI인 「Parti」의 퍼포먼스를 웃돌고 있다고 합니다.

CM3Leon은 '사하라 사막에 있는 밀짚모자와 선글라스를 쓴 작은 선인장' 처럼, 복잡한 구성 요소를 가진 이미지를 생성할 수 있을 뿐만 아니라 시각적인 질문에 대한 응답과 긴 형식의 캡션, 다양한 시각 언어 태스크 등 뛰어난 퍼포먼스를 발휘할 수 있습니다. 이것은 불과 30억의 텍스트 토큰으로 구성된 데이터 세트로 훈련한 경우라도 마찬가지라고 합니다.

 

 


CM3leon을 사용하면 이미지 생성 도구는 "입력 프롬프트를 잘 따르는 일관된 이미지"를 생성할 수 있습니다. 이에 대해 Meta는 “많은 이미지 생성 모델은 전체적인 모양과 부분적인 세부사항을 복원하는 능력에 어려움을 겪고 있습니다. 한편 CM3leon은 이 분야에서 강력한 성능을 발휘하고 있으며, 다양한 작업을 하나의 모델로 실행할 수 있습니다.

Meta는 CM3leon이 자랑하는 작업으로 다음의 7가지를 들었습니다.



◆ 텍스트 가이드에 의한 이미지의 생성과 편집
복잡한 오브젝트의 경우, 또는 프롬프트에 모든 제약을 포함할 필요가 있는 경우, 이미지 생성은 매우 곤란하게 됩니다. CM3leon의 텍스트 가이드에 의한 이미지 편집 기능을 사용하면,  「하늘의 색을 밝은 파란색으로 변경한다」 와 같은 입력으로, 이미지 편집이 가능하다는 것. 이것은 AI 모델이 텍스트 지시와 시각적 콘텐츠를 동시에 이해할 수 있는 CM3leon이기 때문에 가능한 것입니다.

◆ 텍스트에서 이미지 생성
CM3leon은 복잡한 구조의 프롬프트가 주어지더라도 프롬프트에 따라 일관된 이미지를 생성할 수 있습니다.

 

아래는 실제로 CM3leon가 텍스트에서 생성한 이미지의 예로, 왼쪽부터,

"사하라 사막에 있는 밀짚모자와 선글라스를 착용한 작은 선인장"

"사람 손의 클로즈업 사진. 고품질의 것"

"장대한 싸움의 준비를 하고 있는, 칼을 가진 애니메이션풍의 너구리"

"1991이라는 숫자가 들어간 판타지풍의 일시정지 표지"

라는 프롬프트로 생성된 이미지 입니다.


◆ 텍스트 기반 이미지 편집
이미지와 텍스트 프롬프트가 모두 존재하는 경우 텍스트 지침에 따라 이미지를 편집합니다. 텍스트 가이드에 의한 이미지 편집 전용으로 조정된 InstructPix2Pix 등의 모델과 달리, 단일 모델로 이것도 실현할 수 있다는 것이 CM3leon의 뛰어난 포인트입니다.

아래는 텍스트 기반 이미지 편집의 예로 왼쪽부터,

"원본 이미지",

"수염이 난 남성처럼 보인다",

"선글라스를 씌운다"

"100세로 보인다"

"페이스 페인트를 적용"

이라는 텍스트로 편집한 이미지입니다.

 


◆ 텍스트 작업
CM3leon은 다양한 프롬프트에 따라 짧거나 긴 캡션을 생성하고 이미지에 대한 질문에 답할 수 있습니다. 예를 들어, 강아지가 막대기를 문 아래 이미지의 경우, '개는 무엇을 운반합니까?'를 입력하면 CM3leon은 '스틱' 이라고 대답합니다. 게다가 "이미지를 매우 세세하게 설명해 주세요"라고 입력하면 CM3leon은 "이미지에는 막대기를 문 개가 있습니다. 지상에는 잔디가 자랍니다." 라고 대답했다고 합니다.

 


CM3leon의 이미지에서 텍스트를 생성하는 성능은 기존 AI 모델과 비교해도 동등한 성능을 발휘하고 있는 것으로 밝혀졌습니다. Flamingo(1,000억 토큰) 및 OpenFlamingo(400억 토큰)에 비해 CM3leon(30억 토큰)은 토큰 수가 매우 적음에도 불구하고, MS-COCO 벤치 마크에서 이들과 동등한 성능을 발휘하였고, Flamingo의 스코어를 웃도는 것조차 있었다고 합니다.

◆ 구조에 근거한 화상 편집
구조에 근거한 화상 편집에는, 텍스트의 지시뿐만 아니라 입력으로서 사용되는 구조 정보나 레이아웃 정보의 이해와 해석도 포함됩니다. CM3leon은 지정된 구조 및 레이아웃 지침을 준수하면서 시각적으로 일관성이 있으며 상황에 따라 적절한 편집을 이미지에 적용할 수 있습니다.

◆ 객체에서 이미지로
이미지의 경계선 세그멘테이션의 텍스트 설명을 지정하여 이미지를 생성할 수도 있습니다.

예를 들어, "세면대와 거울이 있는 방"을 생성할 때, 이미지에 포함되는 오브젝트의 위치를 ​​지정하는 것이 가능합니다.


◆ 세그멘테이션에서 이미지로

세그멘테이션만 있는 이미지를 지정하여 이미지 생성도 가능합니다. 아래의 이미지는 왼쪽부터

"입력 이미지",

"입력 이미지를 베이스로 출력한 세그멘테이션",

"세그멘테이션을 베이스로 출력한 이미지 1과 2"

입니다.

Meta는 "CM3leon과 같은 모델은 궁극적으로 메타버스에서 창의력을 향상하고 더 나은 애플리케이션을 만드는 데 도움이 될 수 있으며, 많은 모델을 출시하기를 기대합니다."라고 말하고 있습니다. 덧붙여 Meta가 CM3leon을 릴리즈할 예정이 있는지, 언제 릴리즈할 것인지는 아직 알 수 없습니다.

반응형