반응형 화면인식 AI1 Apple이 스마트폰 화면을 인식할 수 있는 멀티모달 LLM 「Ferret-UI」 를 발표 Apple의 연구원이 스마트폰 앱의 UI를 이해하기 위해 설계한 멀티모달 대규모 언어 모델(MLLM)인 「Ferret-UI」 를 개발했다는 논문을 출판 전 논문 리포지토리인 arXiv에 공개했습니다. [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.05719 Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMsRecent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain.. 2024. 4. 12. 이전 1 다음 반응형