소프트웨어 개발자인 찰리 홀츠가 「유명 나레이터인 데이비드 애튼버러의 목소리로 자신의 생태에 관한 내레이션 음성을 실시간으로 생성하는 시스템」을 발표했습니다. 실제로 애튼버러의 목소리로 동물 다큐 풍의 나레이션이 생성되는 데모 영상도 공개되어 화제입니다.
Unauthorized “David Attenborough” AI clone narrates developer's life, goes viral | Ars Technica
홀츠씨가 작성한 시스템은, 화상으로부터 텍스트를 생성하는 OpenAI의 GPT-4 Vision(GPT-4V)와, 음성 샘플로부터 "AI의 복제 음성"을 생성하는 ElevenLabs의 기술을 결합한 것입니다.
GPT-4V에서 애튼버러의 동물 다큐 어조를 재현하기 위해 홀츠 씨는 특별한 프롬프트를 가진 API를 만들었습니다. 웹캠으로 5초마다 촬영한 이미지를 API를 통해 GPT-4V에 피드 하여 동물 다큐 풍의 나레이션을 생성하고, 그 텍스트를 애튼버러의 음성 샘플로 훈련한 ElevenLabs의 AI 음성 프로파일로 읽는다는 것.
홀츠 씨는 실제로 이 시스템을 이용해, 「자신의 생태」를 애튼버러의 목소리로 낭독시키는 동영상을 X(구 Twitter)에 투고하고 있습니다.
시스템의 세팅을 실시하는 홀츠 씨. 웹캠이 5초마다 홀츠 씨의 사진을 촬영하고 그 이미지를 바탕으로 나레이션이 생성되는 구조로 되어 있습니다.
시스템이 작동하면 "은빛 둥근 안경과 곱슬하고 흐트러진 긴 머리카락이 특징인 호모 사피엔스의 놀라운 표본이 여기에 있습니다"라는 나레이션이 흐르기 시작합니다.
게다가 "그는 푸른 천과 같은 것을 착용하고 있습니다만, 이것은 구애 행동의 일종이라고 밖에 생각되지 않습니다."라고 이어지며, 홀츠 씨는 어이없는 듯 무심코 웃고 있습니다.
나레이션은 카페로 보이는 배경을 언급하며, "배경은 보호된 서식지임을 시사하고 있어, 아마 공동의 먹이터나 물 웅덩이일 것"이라고 의외로 날카로운 지적을 실시합니다.
홀츠 씨가 하늘색 컵을 보이며 음료를 마십니다.
그러자 "아, 세련된 호모 사피엔스가 자연환경에서 행하는 수분 보충이라는 중요한 의식을 우리는 관찰하고 있습니다. 이 수컷의 개체는 아마 생명 유지에 필요 한 H2O로 채워진 작은 원통형의 용기를 선택해, 그것을 능숙하게 구개부를 향해 기울이고 있습니다. 어쩜 이리 우아한 몸짓인지요"라고, 마치 생명의 경이를 전하는 동물 다큐처럼 말합니다.
ㅋㅋㅋㅋ
이거... 왠지 웃기만 할 수는 없겠는데요?
홀츠 씨는 이번 시스템을 구축하기 위해 만든 코드를 GitHub에서 공개하고 있습니다.
GitHub - cbh123/narrator: David Attenborough narrates your life
https://github.com/cbh123/narrator
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
대규모 언어 모델(LLM)을 LoRA로 강화하는 데 도움이 되는 정보를 연구원이 공개 (75) | 2023.11.24 |
---|---|
인간다운 음성 합성을 목표로 감정 표현도 가능한 오픈 소스 독서 AI 「StyleTTS 2」가 등장 (78) | 2023.11.23 |
Anthropic이 대규모 언어 모델 「Claude 2.1」을 출시, 최대 20만 토큰, 15만 워드를 읽어 환각이 반감 (3) | 2023.11.23 |
OpenAI의 CEO에 샘 알트만이 복귀해 이사회 멤버도 쇄신 (3) | 2023.11.23 |
OpenAI의 직원 90%가 '샘 알트만 복귀와 이사 전원 사임'을 요구하고 MS로 집단 이직 협박 (53) | 2023.11.22 |
움직이는 물체를 AI가 실시간으로 해석하는 오픈 소스 NVR 「Frigate」 (3) | 2023.11.21 |
ChatGPT 개발자 OpenAI의 임시 CEO로 취임한 미라 무라티는 누구인가? (47) | 2023.11.21 |
Google DeepMind가 음악 생성에 특화된 AI 모델 'Lyria'를 발표 (56) | 2023.11.20 |