본문 바로가기
AI · 인공지능/AI 뉴스

Microsoft가 문장뿐 아니라 시각적 콘텐츠도 이해하여 IQ 테스트에 답할 수 있는 AI「Kosmos-1」을 발표

by 두우우부 2023. 3. 3.
반응형

 

최근에는 이미지 생성이나 인간과의 대화 등 특정 분야에서 뛰어난 능력을 발휘하는 AI가 주목을 받고 있습니다만, 일부 AI 개발자는 인간처럼 언어나 시각, 청각 등 다양한 정보를 정리해 처리할 수 있는「Artificial General Intelligence(AGI) : 범용 인공 지능」의 개발을 목표로 하고 있습니다. 새롭게 Microsoft가, 언어 처리뿐만 아니라 화상이나 시각적 콘텐츠의 인식에도 뛰어나, 도형을 이용한 IQ 테스트에도 답할 수 있는 멀티 모달 AI「Kosmos-1」을 발표했습니다.

[2302.14045] Language Is Not All You Need: Aligning Perception with Language Models
https://doi.org/10.48550/arXiv.2302.14045

Language Is Not All You Need: Aligning Perception with Language Models

A big convergence of language, multimodal perception, action, and world modeling is a key step toward artificial general intelligence. In this work, we introduce Kosmos-1, a Multimodal Large Language Model (MLLM) that can perceive general modalities, learn

arxiv.org


Microsoft introduces Kosmos-1, a Multimodal Large Language Model that

Microsoft introduces Kosmos-1, a Multimodal Large Language Model that achieves impressive performance – BigTechWire

Microsoft recently introduced Kosmos-1, a Multimodal Large Language Model (MLLM) that can perceive multimodal input, follow instructions, and perform in-context learning for multimodal tasks. Microsoft trained Kosmos-1 on web-scale multimodal corpora that

www.bigtechwire.com


기술의 진보로 인공지능은 인간에 필적하는 퀄리티의 이미지나 문장을 생성할 수 있게 되어 있습니다만, 인간에게는「홀로 다양한 태스크를 실행할 수 있다」라는 강점이 있어, 현시점의 AI는 범용성의 면에서 인간에 뒤떨어지고 있습니다. 일부 AI 개발자들은 AGI 개발에 임하고 있으며, AI 개발 기업인 OpenAI의 샘 알트만 CEO는 2023년 2월 블로그에서 "초지성 AGI를 가진 세계로 이행하는 것은 , 아마도 인류 역사상 가장 중요하고, 희망이 가득하고 무서운 프로젝트일 것입니다."라고 말했습니다.

「ChatGPT」나「DALL-E 2」를 개발한 OpenAI의 CEO가「범용 인공 지능」에 대한 전망을 발표

기존의 AI는 화상 생성이나 문장 생성, 음성 분석 등 특정 분야에서 성능을 발휘하도록 특화된 기계 학습 알고리즘입니다만, 범용 인공 지능, 이른바「AGI - Artificial general intelligence : 인공 일반 지

doooob.tistory.com


그런 가운데 마이크로소프트는 자연언어 처리뿐만 아니라 이미지 처리에도 뛰어나 이미지와 문장을 조합한 질문에 답변할 수 있는 AI「Kosmos-1」을 발표했습니다. 마이크로소프트의 연구팀은 arXiv에 게재한 논문에서, "지능의 기본인 멀티모달 지각은 지식의 획득이나 실세계에의 접속이라는 점에서 범용 인공지능 실현을 위해 필요합니다. 단지 언어만 필요한 것이 아니라, 지각을 언어 모델과 일치시키는 것이 필요합니다."라고 말하며 Kosmos-1은 멀티모달 대규모 언어 모델(MLLM)이라고 설명합니다.

Kosmos-1은 825GB 텍스트 데이터 세트인 The Pile과 크롤링으로 발췌한 웹 데이터를 사용하여 교육됩니다. Microsoft는 교육 후 Kosmos-1에 대해 언어 이해, 언어 생성, OCR 미사용 문자 인식, 이미지의 캡션 생성, 시각적 콘텐츠를 포함한 질의응답 등의 테스트를 실시하여 성능을 조사했습니다. 

연구팀이 논문에서 설명한 테스트 예가 다음과 같습니다. 
문제(1)에서는, 고양이의 얼굴에 스마일 종이를 덧댄 이미지에 대해,「왜 이 이미지가 재미있는지 설명해 주세요」라고 질문하였습니다. Kosmos-1은 "고양이가 웃고 있는 것처럼 보이는 마스크를 착용하고 있기 때문에"라고 제법 정확한 대답을 내놓고 있습니다. 또, (3)의「금발인 사람의 헤어 스타일은 어떻게 불리고 있습니까?」라는 질문에 대해서는,「포니테일」이라고 정확히 대답하고 있습니다.



'5+4'라는 이미지와 함께 답을 묻는 문제(6)에서는 Kosmos-1은 훌륭하게 '5+4=9'라고 정답을 냈고, 스마트 워치의 이미지를 보여 심박수를 묻는 문제(7)에서도 옳은 심박수를 대답.



또한 픽사 애니메이션 스튜디오와 월트 디즈니 픽처스가 제작한 2008년 영화 '월리'의 이미지를 보여주고 '이 이미지에 대해 자세히 설명해 주세요'라고 물었더니, 타이틀이나 픽사 · 애니메이션 · 스튜디오가 제작한 것까지 잘 설명하고 있습니다.



또한 Microsoft는 IQ 테스트에도 사용되는  레이븐 매트릭스라는 도형을 이용한 문제도 냈습니다. 아래와 같이 규칙성 있는 복수의 도형의 배열을 보여주며,「다음에 오는 도형은 어느 것인가?」라는 질문으로, Kosmos-1은 22 ~ 26%의 정답률을 보였습니다. 무작위로 찍었을 경우의 정답률이 17%이므로, 약간이지만 Kosmos-1은 우연을 웃도는 확률로 정답을 말했다는 것입니다.


Microsoft의 연구팀은 향후 Kosmos-1을 확장하여 음성 인식 기능을 통합하고자 합니다. 덧붙여 Microsoft는 Kosmos-1을 개발자용으로 공개할 예정이라고 합니다만, 테크놀로지계 미디어 Ars Technica에 의하면, 현시점에서 이용 가능한 코드 등은 공개되어 있지 않다고 합니다.

반응형