본문 바로가기
AI · 인공지능/AI 뉴스

Google이 「대규모 시각 모델(LVM)」 에 대해 해설, 데모도 공개

by 두우우부 2023. 8. 23.
반응형

 

Google이 대규모 언어 모델(LLM)에 「시각」을 부여한 「대규모 시각 모델(LVM)」 데모를 공개함과 동시에, LVM의 구조에 대한 해설 기사를 올렸습니다.

Multimodal generative AI search | Google Cloud Blog

Multimodal generative AI search | Google Cloud Blog

Adding vision capabilities to LLMs.

cloud.google.com


LVM 데모는 「https://ai- demos.dev/」에 게시되었습니다. 

이 사이트에는 여러 데모가 함께 공개되어 있는데요, 우선 'MERCARI TEXT-TO-IMAGE'를 클릭하여 LVM 데모를 표시합니다. 이 데모는 그 이름에도 MERCARI라고 적혀있듯이, 메르카리(일본 최대 규모의 중고나라, 당근마켓)의 상품 데이터를 이용하여 작성되고 있습니다.



직접 텍스트를 입력할 수도 있습니다만, 우선은 데모가 제안하는 「Ralph Lauren polo shirt」를 클릭하여, 즉시 검색 결과를 도출해 봅니다. 여기 까지라면 보통의 검색과 별반 다르지 않습니다만, Google의 투고에 의하면 이 검색은 「타이틀」, 「설명」, 「태그」등을 사용하지 않고, 이미지를 AI가 분석하는 것 만으로 성립되고 있다는 것.



그 때문에, 「흑백 구슬이 붙은 수제 액세서리」라는 검색성이 낮은 문장으로도 적절한 상품을 검색할 수 있습니다.



「춤추고 있는 사람의 그림이 붙은 컵」등, 상품의 그림에 대해서도 분석 가능.



「Google로고 색의 컵」으로 검색하면 파랑・빨강・노랑・녹색으로 구성된 컵이 나옵니다. 과연, 아무도 「Google 로고색」이라는 문장으로 상품을 등록할 일은 없기 때문에, 이것이 LVM의 능력인 듯.



문자 인식도 가능한 것 같고, 「It's my birthday라고 적힌 셔츠」로 검색하면 그대로의 셔츠가 나왔습니다.



심층 학습 모델을 사용하면 텍스트, 이미지, 음성 등의 의미 맵인 임베딩 공간을 만들 수 있습니다. 예를 들어 이미지의 경우 아래 그림과 같이 각각의 이미지가 '인간', '음식', '장난감' 등의 성분으로 분해되어 그 성분으로 이루어진 임베딩 공간 위에 배치됩니다.



유사한 성분을 가진 이미지는 임베딩 된 공간에서 가까운 위치에 배치됩니다. 이 구조를 이용하면 이미지에서 이미지를 검색하는 시스템을 구축할 수 있습니다.



심층 학습 모델에서는 텍스트와 이미지 쌍을 활용하여 교육할 수도 있습니다. 구글은 「이미지를 임베드 공간에 배치하는 모델」, 「텍스트를 임베드 공간에 배치하는 모델」, 「양자의 공간 관계를 학습하는 모델」의 3개의 모델을 이용해 트레이닝을 실시했다고 합니다. 이는 "대규모 언어 모델에 시각을 부여하는 것과 같은 것"이라고 말합니다.

이렇게 하면 이미지와 텍스트를 공유 임베딩 공간에 배치할 수 있습니다.



이 공간을 이용하면 텍스트로 이미지를 검색하거나 반대로 이미지로 텍스트를 검색할 수 있습니다. Google 검색에서도 비슷한 개념이 사용되고 있다는 것.



또한 Google은 Nomic AI와 협력하여 시각화 데모를 구축했습니다. 모델이 이미지를 이해하는 방법의 한 단면을 엿볼 수 있습니다.



Google의 해설 블로그에서는, LVM의 응용예로서, 인터넷 경매에 출품할 때에 상품 이미지만 업로드하여 제목과 설명까지 자동 입력되거나, 「불타는 기계」,「문을 열려고 하는 사람」, 「침수」와 같은 텍스트를 사용하여 다수의 보안 카메라를 효율적으로 관리하는 예가 설명되어 있습니다. 그 외, 자동 운전 등으로 기계 학습을 실시할 때의 데이터 정리를 더 효율적으로 실시하는 것도 가능합니다.



텍스트/이미지를 동시에 검색할 수 있는 멀티모달 검색을 사용하려는 사람들을 위해, Google 서비스를 함께 소개하고 있습니다.

웹 사이트 및 PDF 파일을 검색하려면 「Gen App Builder의 Enterprise Search」를 사용하는 것이 좋으며,

대량의 이미지와 동영상에 대한 시맨틱 검색을 수행하거나 유사성 검색을 수행하려면 「Vertex AI Vision Warehouse」,

제품 등의 데이터가 표 형식으로 정리되어 있는 경우는 「Enterprise Search로의 멀티모달 임베딩」,

멀티 모달 검색뿐만 아니라 추천 등 재이용까지 생각하고 있고, 기계 학습 엔지니어등의 전문가가 있는 경우는 「Vertex AI Matching Engine」을 이용하는 것이 좋다고 합니다.

 

반응형