본문 바로가기
AI · 인공지능/AI 뉴스

마침내 ChatGPT가 「보기, 듣기, 말하기」에 대응, 인간처럼 음성대화 및 사진으로 질문 가능

by 두우우부 2023. 9. 27.
반응형



OpenAI가 ChatGPT에 "이미지 내용을 판단하고 응답하는 기능"과 "텍스트가 아닌 음성으로 커뮤니케이션하는 기능"을 추가한다고 발표했습니다. 이로 인해 「냉장고를 보여주고 레시피를 제안받는다」등의 시각을 수반한 커뮤니케이션이 가능하게 된 것 외에, 인간과 대화하는 것처럼 음성 커뮤니케이션을 취하는 것도 가능해집니다.

ChatGPT can now see, hear, and speak

ChatGPT can now see, hear, and speak

We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.

openai.com


OpenAI에 따르면 향후 2주 이내에 유료 플랜 'ChatGPT Plus'와 'ChatGPT Enterprise'의 가입자에게 이미지 내용을 인식하고 응답하는 기능과 음성으로 커뮤니케이션하는 기능을 제공할 예정입니다. 이 중 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있으며 음성 커뮤니케이션 기능은 iOS 버전 ChatGPT 및 Android 버전 ChatGPT에서만 사용할 수 있습니다.

◆ 이미지 인식 기능
이미지 인식 기능은, ChatGPT에 이미지를 입력하는 것으로 GPT 3.5나 GPT 4를 이용해 이미지 인식 처리가 행해져, 이미지를 근거로 응답을 돌려줍니다. 예를 들면 「냉장고의 내용을 보여주고 레시피를 제안받는다」, 「그래프를 보여주고 요점을 해설받는다」등의 조작이 가능해집니다.

아래의 예에서는 자전거 사진을 보여주면서 ChatGPT에 「자전거 안장 내리는 방법을 알려줘」라고 질문한 결과, 「퀵 릴리즈 레버나 볼트를 조작하세요」라고 안장 내리는 방법을 가르쳐 줍니다.




게다가 사진의 일부를 아래와 같이 지정하고 "레버는 이것?"이라고 물으면, "아니, 그것은 볼트입니다."라고 답변이 돌아옵니다.




또한 자전거의 설명서와 공구 상자의 사진을 보여주고 "설명서와 공구 상자는 이건데, 맞는 도구가 있나?"라고 물어보니, "공구 상자의 좌측에 들어 있는 「DEWALT」라는 라벨이 붙은 공구가 사용해야 할 공구입니다."라고 가르쳐 주었습니다.



◆ 음성 커뮤니케이션 기능
음성 커뮤니케이션 기능의 화면은 이런 느낌입니다. 유저가 발화한 내용이 문장 생성 AI 「Whisper」로 인식되어 발화 내용에 대해서 ChatGPT가 음성으로 응답해 줍니다.



ChatGPT의 목소리는 「텍스트와 몇 초의 음성 샘플만으로 합성 음성을 만들어낼 수 있는 AI 모델」이 이용되고 있어, 5종류의 음성 샘플이 공개되고 있습니다.
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.

“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”

Milo’s ears perked up, curious. “A new playmate?”

Lila purred, “Yes, a baby sister.”

Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”

Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”

Milo nodded eagerly, already dreaming of the adventures they’d share.
story-juniper.mp3
0.66MB



덧붙여 ChatGPT의 합성 음성 작성에 이용되고 있는 AI 모델은, Spotify로 테스트 중인 자동 번역 기능에도 도입되고 있습니다.

반응형