본문 바로가기
AI · 인공지능/AI 뉴스

Apple이 스마트폰 화면을 인식할 수 있는 멀티모달 LLM 「Ferret-UI」 를 발표

by 두우우부 2024. 4. 12.
반응형

 
 
 
Apple의 연구원이 스마트폰 앱의 UI를 이해하기 위해 설계한 멀티모달 대규모 언어 모델(MLLM)인 「Ferret-UI」 를 개발했다는 논문을 출판 전 논문 리포지토리인 arXiv에 공개했습니다.

[2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
https://arxiv.org/abs/2404.05719

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with user interface (UI) screens. In this paper, we present Ferre

arxiv.org


Apple teaching an AI system to use apps; maybe for advanced Siri

Incipio’s iPhone 12 cases see 12ft Drop Protection, Germ Resistance + exclusive 20% off

Ahead of the upcoming iPhone 12 Pro Max and iPhone 12 mini preorders, Incipio is offering readers an exclusive promo on its latest case collections for all of Apple’s new iPhone models. Head below for a closer look at the new Incipio Duo line and get 20%

9to5mac.com



ChatGPT와 같은 챗봇 AI 시스템의 기반이 되는 대규모 언어 모델(LLM)은 주로 웹사이트에서 수집된 엄청난 텍스트로 학습합니다. 그리고 Google Gemini와 같은 MLLM은 텍스트뿐만 아니라 이미지, 동영상, 음성 등 비 텍스트 정보도 학습하고 있는 것이 포인트입니다.

그러나 MLLM은 스마트폰용 앱으로는 성능이 우수하지 않다고 합니다. 그 이유 중 하나는 교육에 사용되는 이미지 및 동영상의 대부분이 스마트폰 화면과는 다른 종횡비의 가로본능 사이즈이기 때문입니다. 또한 스마트폰에서는 아이콘이나 버튼 등 인식해야 하는 UI가 자연 이미지 객체보다 적다는 문제도 존재합니다.

이번에 Apple의 연구원이 발표한 Ferret-UI는 스마트폰의 모바일 앱 화면을 인식할 수 있도록 설계된 생성 AI 시스템입니다.



스마트폰의 UI 화면은 보통 세로가 긴 비율을 가지며 아이콘과 텍스트 같은 작은 물체를 포함합니다. 이에 대응하기 위해, Ferret-UI에서는 이미지의 상세를 확대해, 강화된 시각적 특징을 활용하는  「any resolution」 이라는 기술이 도입되었습니다. 이렇게 하면 Ferret-UI가 화면 해상도에 관계없이 UI 세부 정보를 정확하게 인식할 수 있습니다.



또한 Ferret-UI는 아이콘 인식, 텍스트 검색, 위젯 목록화 등 기본 UI 작업의 광범위한 교육 샘플을 수집합니다. 이러한 샘플에는 영역별로 주석이 붙어 있습니다. 이렇게 하면 언어와 이미지 간의 연관성 및 정확한 참조가 용이해집니다. 즉, Ferret-UI는 구체적인 UI 샘플을 대량으로 학습함으로써 다양한 UI를 올바르게 이해할 수 있도록 되어 있는 것입니다.



논문에 따르면, Ferret-UI는 GPT-4V나 다른 기존의 UI 대응 MLLM보다 뛰어난 성능을 나타내고 있다고 합니다. 이는 Ferret-UI의 'any resolution' 기술과 대규모의 다양한 교육 데이터, 고급 작업에 대한 대응 등이 UI의 이해와 조작에 있어 높은 효과를 발휘하고 있음을 시사합니다.

또한 Ferret-UI 모델의 추론 능력을 높이기 위해 자세한 설명, 지각/상호작용 대화, 기능 추론 등 고급 작업을 위한 데이터 세트가 추가로 컴파일되었습니다. 이를 통해 Ferret-UI는 단순한 UI 인식뿐만 아니라 보다 복잡하고 추상적인 UI를 이해하고 상호작용할 수 있습니다.

Ferret-UI가 실용화되면 접근성 향상을 기대할 수 있습니다. 시각장애 등으로 스마트폰 화면을 볼 수 없는 사람이라도 화면에 표시되는 내용을 요약하여 AI가 사용자에게 전달하는 것이 가능해집니다. 또한 스마트폰용 앱을 개발할 때 Ferret-UI가 화면을 인식하게 함으로써 앱의 UI의 친숙함과 사용 편의성을 더욱 빠르게 확인할 수 있습니다.



또한 스마트폰에 최적화된 멀티모달 AI로 iPhone에 탑재된 AI 어시스턴트의 Siri와 결합하여 모든 앱을 이용한 보다 고급화된 작업을 Siri로 자동화할 수도 있습니다.

반응형