Google이 영상과 음성을 이해하고 질문에 답하는 AI 에이전트 「Project Astra」 를 발표

Google이 현지 시간인 2024년 5월 14일에 개최한 개발자 이벤트 「Google I/O」 에서, 영상이나 음성을 이해해 실시간으로 질문에 대답해 주는 AI 에이전트 「Project Astra(Astra)」 를 발표했습니다. 실제로, 유저가 스마트폰과 스마트 글라스 카메라로 촬영하고 Astra에 이거 이것 질문하는 데모 영상도 공개되어 있습니다.

Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra

Gemini breaks new ground with a faster model, longer context, AI agents and more

We’re sharing updates across our Gemini family of models and a glimpse of Project Astra, our vision for the future of AI assistants.

blog.google

Google strikes back at OpenAI with “Project Astra” AI agent prototype | Ars Technica

Google strikes back at OpenAI with “Project Astra” AI agent prototype

AI model updates galore at Google I/O, including 2M context window, Imagen 3, Veo, and more.

arstechnica.com

현지 시간 5월 13 일, OpenAI가 음성이나 시각 정보를 고속으로 처리해 실시간으로 응답하는 새로운 AI 모델 「GPT-4o」 를 발표해, 큰 화제가 되었습니다. 이다음날 개최된 Google I/O에서 일상생활에 도움이 되는 유니버설 AI 에이전트 개발의 일환으로 Google은 AI 에이전트의 Astra를 발표했습니다.

Google의 AI 부문인 Google DeepMind의 데미스 하사비스 씨는 "Google DeepMind는 인류에게 이익을 가져오기 때문에 책임을 지고 AI를 구축하는 임무의 일환으로 일상생활에 도움이 되는 유니버설 AI 에이전트를 개발하고 싶다고 늘 생각해 왔습니다. 그래서 오늘은, Project Astra(advanced seeing and talking responsive agent: 보거나 말할 수 있는 고급 응답 에이전트)에 의한 AI 어시스턴트의 미래의 진척상황을 공유하겠습니다."라고 말하고 있습니다.

스마트폰 카메라와 마이크를 켜고 사용자가 "뭔가 소리를 내는 것이 있으면 알려주세요"라고 Astra에게 명령합니다.

카메라에 스피커가 비치자, "소리를 내는 스피커가 보입니다"라고 Astra가 즉시 반응합니다.

이어서 사용자는 화살표를 그리고 스피커 상단의 소리가 나오는 부분에 대해 "스피커의 이 부분은 무엇이라고 부릅니까?"라고 물어봅니다.

그러자 Astra는 "그것은 트위터입니다. 고주파 소리를 발생시키는 부분입니다"라고 대답합니다.

PC 화면에 비친 코드가 어떠한 동작을 할지 물으면, Astra는 암호화 함수와 복호화 함수를 정의하는 것이라고 응답.

창 밖의 경치를 비추고 "나는 어디에 있다고 생각하나요?"라고 묻자, 런던의 킹스 크로스 같다고 대답.

또한 사용자는 "내 안경을 어디에서 봤는지 기억하십니까?"라는 의외의 질문도 던집니다.

꽤 어려워 보였지만, 아스트라는 안경이 책상 위에 빨간 사과 근처에 있었다고 대답합니다.

이번에는 장착한 스마트 글라스의 카메라로 주위를 비추면서, Astra에게 말을 겁니다.

화이트보드에 다이어그램을 그리고 "이 시스템을 가속화하기 위해 여기에 무엇을 추가할 수 있습니까?"라고 묻자, "서버와 데이터베이스 사이에 캐시를 추가하면 속도가 향상될 수 있습니다."라고 대답.

게다가 화이트보드에 그려진 2마리의 고양이 얼굴 사이에 '?' 마크가 적힌 상자를 배치하고 '이것을 보고 무슨 생각이 드나요?'라고 질문. 약간의 수수께끼 같은 질문이었지만, Astra는 "슈레딩거의 고양이"라고 대답했습니다.

호랑이의 봉제인형과 개를 보여주고 "이 듀오의 밴드 이름을 가르쳐주세요"라고 물었더니 "골든 스트라이프스"라는 대답이 돌아왔습니다. 마치 인간과 대화하는 듯한 자연스러운 응답이 실시간으로 가능해지고 있습니다.

Project Astra에서는 비디오 프레임을 연속적으로 인코딩해 동영상과 음성 입력을 조합해 이벤트의 타임 라인에 결합해, 캐시화한 정보를 효율적으로 호출해 고속의 정보 처리를 가능하게 한다고 합니다. 또한, 최첨단의 음성 모델을 사용해 소리의 울림을 향상해, 인토네이션(억양)의 폭도 넓어졌다고 합니다.

하사비스 씨는 "이런 기술을 통해 사람들이 스마트폰이나 스마트 글라스를 통해 전문적인 AI 어시스턴트를 옆에 두는 미래를 그리는 것은 어렵지 않습니다. 일부는 올해 중 Google 서비스에 탑재될 예정입니다."라고 댓글을 달았습니다.

저작자표시 비영리 변경금지 (새창열림)

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

GPT-4o의 중국어 토큰은 포르노와 스팸으로 오염됨 (5)	2024.05.21
스탠퍼드대 연구 그룹이 GPU를 고속으로 동작시키는 AI용 도메인 고유 언어 「ThunderKittens」 출시 (73)	2024.05.17
OpenAI가 「GPT-4o(옴니: omni)」 를 발표 (4)	2024.05.17
Google이 오픈 소스 비주얼 언어 모델 'PaliGemma' 공개 (5)	2024.05.16
Google이 학습 진화 AI 모델 「LearnLM」 을 발표 (5)	2024.05.16
Google이 고성능이면서 빠른 경량 AI 모델 「Gemini Flash」 를 발표 (4)	2024.05.16
Google의 AI 사진・영상 검색 기능 「Ask Photos」도입 (4)	2024.05.16
Google이 자동으로 1분 초과 동영상을 생성할 수 있는 AI 「Veo」 를 발표 (5)	2024.05.16

두우우부

Google이 영상과 음성을 이해하고 질문에 답하는 AI 에이전트 「Project Astra」 를 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

Google이 영상과 음성을 이해하고 질문에 답하는 AI 에이전트 「Project Astra」 를 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바