Apple의 연구원이 스마트폰 앱의 UI를 이해하기 위해 설계한 멀티모달 대규모 언어 모델(MLLM)인 「Ferret-UI」 를 개발했다는 논문을 출판 전 논문 리포지토리인 arXiv에 공개했습니다.
[2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
https://arxiv.org/abs/2404.05719
Apple teaching an AI system to use apps; maybe for advanced Siri
ChatGPT와 같은 챗봇 AI 시스템의 기반이 되는 대규모 언어 모델(LLM)은 주로 웹사이트에서 수집된 엄청난 텍스트로 학습합니다. 그리고 Google Gemini와 같은 MLLM은 텍스트뿐만 아니라 이미지, 동영상, 음성 등 비 텍스트 정보도 학습하고 있는 것이 포인트입니다.
그러나 MLLM은 스마트폰용 앱으로는 성능이 우수하지 않다고 합니다. 그 이유 중 하나는 교육에 사용되는 이미지 및 동영상의 대부분이 스마트폰 화면과는 다른 종횡비의 가로본능 사이즈이기 때문입니다. 또한 스마트폰에서는 아이콘이나 버튼 등 인식해야 하는 UI가 자연 이미지 객체보다 적다는 문제도 존재합니다.
이번에 Apple의 연구원이 발표한 Ferret-UI는 스마트폰의 모바일 앱 화면을 인식할 수 있도록 설계된 생성 AI 시스템입니다.
스마트폰의 UI 화면은 보통 세로가 긴 비율을 가지며 아이콘과 텍스트 같은 작은 물체를 포함합니다. 이에 대응하기 위해, Ferret-UI에서는 이미지의 상세를 확대해, 강화된 시각적 특징을 활용하는 「any resolution」 이라는 기술이 도입되었습니다. 이렇게 하면 Ferret-UI가 화면 해상도에 관계없이 UI 세부 정보를 정확하게 인식할 수 있습니다.
또한 Ferret-UI는 아이콘 인식, 텍스트 검색, 위젯 목록화 등 기본 UI 작업의 광범위한 교육 샘플을 수집합니다. 이러한 샘플에는 영역별로 주석이 붙어 있습니다. 이렇게 하면 언어와 이미지 간의 연관성 및 정확한 참조가 용이해집니다. 즉, Ferret-UI는 구체적인 UI 샘플을 대량으로 학습함으로써 다양한 UI를 올바르게 이해할 수 있도록 되어 있는 것입니다.
논문에 따르면, Ferret-UI는 GPT-4V나 다른 기존의 UI 대응 MLLM보다 뛰어난 성능을 나타내고 있다고 합니다. 이는 Ferret-UI의 'any resolution' 기술과 대규모의 다양한 교육 데이터, 고급 작업에 대한 대응 등이 UI의 이해와 조작에 있어 높은 효과를 발휘하고 있음을 시사합니다.
또한 Ferret-UI 모델의 추론 능력을 높이기 위해 자세한 설명, 지각/상호작용 대화, 기능 추론 등 고급 작업을 위한 데이터 세트가 추가로 컴파일되었습니다. 이를 통해 Ferret-UI는 단순한 UI 인식뿐만 아니라 보다 복잡하고 추상적인 UI를 이해하고 상호작용할 수 있습니다.
Ferret-UI가 실용화되면 접근성 향상을 기대할 수 있습니다. 시각장애 등으로 스마트폰 화면을 볼 수 없는 사람이라도 화면에 표시되는 내용을 요약하여 AI가 사용자에게 전달하는 것이 가능해집니다. 또한 스마트폰용 앱을 개발할 때 Ferret-UI가 화면을 인식하게 함으로써 앱의 UI의 친숙함과 사용 편의성을 더욱 빠르게 확인할 수 있습니다.
또한 스마트폰에 최적화된 멀티모달 AI로 iPhone에 탑재된 AI 어시스턴트의 Siri와 결합하여 모든 앱을 이용한 보다 고급화된 작업을 Siri로 자동화할 수도 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
Google이 AI로 무한 길이의 텍스트 처리 능력을 제공하는 기술 발표 (67) | 2024.04.16 |
---|---|
일론 머스크의 xAI가 이미지를 이해할 수 있는 멀티모달 AI 「Grok-1.5」 를 발표 (67) | 2024.04.16 |
GPU와 AI를 활용해 기존 칩 제조 공장보다 비용은 100분의 1, 크기는 10분의 1, 제조 시간은 5분의 1로 단축 (67) | 2024.04.16 |
2025~2026년에는 AI 모델 학습 비용이 14조 원에 달해 인류를 위협하는 AI가 등장? (67) | 2024.04.16 |
무료로 1개월에 1200곡까지 AI 작곡이 가능한 「Udio」 퍼블릭 베타판이 공개 (52) | 2024.04.12 |
OpenAI가 이미지를 읽을 수 있는 AI 「 GPT-4 Turbo with Vision」 을 일반에 공개 개시 (56) | 2024.04.11 |
Hugging Face도 뚫렸다? 신뢰할 수 없는 AI 모델을 실행하면 AI를 통해 시스템에 침입할 수 있음을 경고 (5) | 2024.04.09 |
페이스북 계정을 탈취, ChatGPT 등의 AI 서비스를 가장하여 멀웨어를 퍼트리는 활동을 관측 (5) | 2024.04.09 |