OpenAI가 ChatGPT에 "이미지 내용을 판단하고 응답하는 기능"과 "텍스트가 아닌 음성으로 커뮤니케이션하는 기능"을 추가한다고 발표했습니다. 이로 인해 「냉장고를 보여주고 레시피를 제안받는다」등의 시각을 수반한 커뮤니케이션이 가능하게 된 것 외에, 인간과 대화하는 것처럼 음성 커뮤니케이션을 취하는 것도 가능해집니다.
ChatGPT can now see, hear, and speak
OpenAI에 따르면 향후 2주 이내에 유료 플랜 'ChatGPT Plus'와 'ChatGPT Enterprise'의 가입자에게 이미지 내용을 인식하고 응답하는 기능과 음성으로 커뮤니케이션하는 기능을 제공할 예정입니다. 이 중 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있으며 음성 커뮤니케이션 기능은 iOS 버전 ChatGPT 및 Android 버전 ChatGPT에서만 사용할 수 있습니다.
◆ 이미지 인식 기능
이미지 인식 기능은, ChatGPT에 이미지를 입력하는 것으로 GPT 3.5나 GPT 4를 이용해 이미지 인식 처리가 행해져, 이미지를 근거로 응답을 돌려줍니다. 예를 들면 「냉장고의 내용을 보여주고 레시피를 제안받는다」, 「그래프를 보여주고 요점을 해설받는다」등의 조작이 가능해집니다.
아래의 예에서는 자전거 사진을 보여주면서 ChatGPT에 「자전거 안장 내리는 방법을 알려줘」라고 질문한 결과, 「퀵 릴리즈 레버나 볼트를 조작하세요」라고 안장 내리는 방법을 가르쳐 줍니다.
게다가 사진의 일부를 아래와 같이 지정하고 "레버는 이것?"이라고 물으면, "아니, 그것은 볼트입니다."라고 답변이 돌아옵니다.
또한 자전거의 설명서와 공구 상자의 사진을 보여주고 "설명서와 공구 상자는 이건데, 맞는 도구가 있나?"라고 물어보니, "공구 상자의 좌측에 들어 있는 「DEWALT」라는 라벨이 붙은 공구가 사용해야 할 공구입니다."라고 가르쳐 주었습니다.
◆ 음성 커뮤니케이션 기능
음성 커뮤니케이션 기능의 화면은 이런 느낌입니다. 유저가 발화한 내용이 문장 생성 AI 「Whisper」로 인식되어 발화 내용에 대해서 ChatGPT가 음성으로 응답해 줍니다.
ChatGPT의 목소리는 「텍스트와 몇 초의 음성 샘플만으로 합성 음성을 만들어낼 수 있는 AI 모델」이 이용되고 있어, 5종류의 음성 샘플이 공개되고 있습니다.
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.
“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”
Milo’s ears perked up, curious. “A new playmate?”
Lila purred, “Yes, a baby sister.”
Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”
Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”
Milo nodded eagerly, already dreaming of the adventures they’d share.
덧붙여 ChatGPT의 합성 음성 작성에 이용되고 있는 AI 모델은, Spotify로 테스트 중인 자동 번역 기능에도 도입되고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
여행 상담부터 SNS 문장 작성까지 가능한 어시스턴트 AI 「Assistant with Bard」 발표 (0) | 2023.10.05 |
---|---|
GPT-4와 Claude 2는 「16세기에 쓰여진 라틴어 마술서」까지 번역 가능하며, 인간 전문가에 필적한다 (1) | 2023.10.05 |
대규모 언어 모델에서 '무한 입력'을 가능하게 해주는 기법 「StreamingLLM」이 등장 (0) | 2023.10.04 |
GitHub가 모든 개인 사용자에게 무료로 "GitHub Copilot Chat"베타 버전을 제공 (0) | 2023.09.27 |
히타치의 코지마 CEO가 생성 AI를 중심으로한 혁신 전략을 밝혀 (0) | 2023.09.26 |
Windows11에 생성 AI를 통합, 「Microsoft Copilot」9월부터 도입 개시 (1) | 2023.09.26 |
생성 AI를 Z세대는 70%가 이용, X세대, 베이비부머와의 갭을 Salseforce가 조사 (0) | 2023.09.26 |
YouTube가 AI 탑재 동영상 제작 툴을 발표 (1) | 2023.09.26 |