본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 「Seamless Communication」공개, 화자 톤을 유지하면서 실시간으로 다언어 음성을 번역

by 두우우부 2023. 12. 20.
반응형

 
 
미국의 메타는 2023년 11월 30일 언어 간 커뮤니케이션 장벽을 해소하기 위한 AI 모델군, 「Seamless Communication」을 공개했습니다. 

https://ai.meta.com/blog/seamless-communication/

Introducing a suite of AI language translation models that preserve expression and improve streaming

EMMA is our core streaming algorithm, which allows us to intelligently decide when we have enough information to generate the next speech segment or target text. It improves upon previous state-of-the-art algorithms especially for long input sequences, whi

ai.meta.com


서로 다른 언어 간에도 풍부한 표현의 커뮤니케이션을 실시간으로 가능하게 합니다.



이 모델 그룹에는 다음 세 가지의 특징 모델이 포함됩니다.

SeamlessM4T v2

음성과 텍스트를 가로지르는 번역 및 트랜스크립션을 수행하는 다국어 및 멀티태스킹 기본 모델로, 8월에 출시된 기반 모델 'SeamlessM4T'의 개량판입니다.
SeamlessM4T v2는 SeamlessExpressive 및 SeamlessStreaming 모델의 기반이 되고 있습니다. 비(非) 자기 회귀적(自己 回帰的) 텍스트로부터 유닛으로의 디코더를 갖춘 새로운 아키텍처를 특징으로 하며 텍스트와 음성출력 간의 일관성을 향상하고 있습니다.

SeamlessExpressive

번역은 인간이 표현하는 뉘앙스를 포착할 필요가 있습니다. 기존의 번역 도구는 대화의 내용을 포착하는 데는 뛰어나지만, 일반적으로 단조로운 로봇형 음성 합성 시스템에 의존하고 있습니다. 한편 'SeamlessExpressive'는 화자의 스타일과 감정적인 톤에 더해 간격과 발화속도 등 음성의 복잡성을 유지하는 것을 목표로 하고 있습니다.
현재, 영어 · 스페인어 · 프랑스어 · 독일어의 데모 영상을 시청하고 체험할 수 있습니다.

https://seamless.metademolab.com/expressive

Seamless Expressive Translation Demo

Create translations that follow your speech style. Translate from nearly 100 input languages into 35 output languages. This is a translation research demo powered by AI.

seamless.metademolab.com


SeamlessExpressive는 전자 워터마크를 포함한 최초의 번역 모델이라고 합니다. 동일한 모델에 의해 생성된 출력 음성인지 확인할 수 있습니다.
 


SeamlessStreaming

약 2초의 지연으로 번역을 제공하고 오프라인 모델과 거의 동일한 정확도를 가진 최초의 대규모 다국어 모델입니다. SeamlessM4T v2를 기반으로 거의 100개의 입출력 언어에 대응하는 자동 음성 인식 및 음성 --> 텍스트로의 번역, 음성에서 음성으로의 번역을 지원합니다.

그리고, 이들 3개의 모델의 기능을 통합한 모델 「Seamless」가 제공됩니다. 이 모델은 Seamless M4T v2의 품질과 다기능성, Seamless Streaming의 실시간 우위성, Seamless Expressive의 표현력 유지를 겸비하고 있습니다.

Meta는 개방적이고 안전하고 책임 있는 AI의 진전을 목표로 12월 5일 새로운 단체 'AI Alliace'를 출범했습니다. 이러한 모델은 해로운 할루시네이션(환각)을 줄이고, 보다 안전한 커뮤니케이션을 촉진하도록 훈련되고 있다고 합니다.

Seamless는 오픈 모델로 Hugging Face와 Github에 공개되어 있습니다.

https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

Seamless Communication - a facebook Collection

A significant step towards removing language barriers through expressive, fast and high-quality AI translation.

huggingface.co

https://github.com/facebookresearch/seamless_communication

GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

Foundational Models for State-of-the-Art Speech and Text Translation - GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

github.com

반응형