본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 음성 입력으로 「음성 인식」,「번역」,「더빙」을 동시 실행하는 AI「SeamlessM4T」공개

by 두우우부 2023. 8. 24.


Meta가 음성을 입력하는 것만으로 「음성 인식 텍스트 생성」, 「다른 언어로의 번역」, 「다른 언어로의 더빙」을 동시에 실행할 수 있는 AI 「SeamlessM4T」를 2023년 8월 22일에 공개했습니다.

Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta

Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta

SeamlessM4T allows people to communicate effortlessly through speech and text across different languages.


Introducing a foundational multimodal model for speech translation

Introducing a foundational multimodal model for speech translation

Download the code, model, and data This blog post was made possible by the work of Bapi Akula, Pierre Andrews, Can Balioglu, Loïc Barrault, Onur Çelebi, Peng-Jen Chen, Yu-An Chung, Mariano Cora Meglioli, David Dale, Ning Dong, Paul-Ambroise Duquenne, Naj


텍스트 생성 AI나 번역 AI는 복수 존재합니다만, 기존 AI의 대부분은 텍스트 생성이나 번역 등의 단일 기능만 가능했습니다. Meta가 새롭게 개발한 SeamlessM4T는 멀티모달 AI로, 단일 AI만으로도 복수의 조작이 가능합니다.

SeamlessM4T는 한국어 음성 입력에도 대응하고 있어, 한국어 · 영어 · 중국어 · 프랑스어 · 일본어 등을 포함한 35개 언어 출력을 서포트하고 있습니다. 누구나 사용할 수 있는 데모도 공개되어 있기 때문에, 실제로 데모를 사용해 얼마나 고정밀도의 텍스트를 생성할 수 있는지 시험해 보았습니다.

Seamless Communication Translation Demo

위 데모에 액세스하면 다음 화면이 표시되므로 'START DEMO' 버튼을 클릭합니다.

데모 이용약관을 읽고 동의합니다.

그러면 데모를 실행 가능하게 되며, 「START RECORDING」을 클릭합니다.
(마이크 사용 권한을 묻는 메시지가 표시되면 허용을 클릭합니다.)

화면에 "Recording"이 표시되면 마이크를 향해 발화하고, "STOP RECORDING"을 클릭합니다.
(저의 경우엔 뉴스 기사 일부를 소리내어 읽어 보았습니다.)

화면이 전환되면 번역할 언어를 선택하기 위해 아래로 스크롤합니다.

번역가능 언어 목록이 표시되면 원하는 언어를 클릭한 다음 TRANSLATE를 클릭합니다.

조금 기다리면, 「자동 음성 인식」, 「텍스트 번역」, 「스피치 번역(더빙)」항목이 출력되고, 백그라운드에서 AI의 생성 및 번역 작업이 진행됩니다.

조금 더 기다리니 생성이 완료되었습니다.

저의 비루한 발음에도 불구하고, 음성인식률이 아주 훌륭했습니다. 또한, 번역 결과도 양호하고 더빙도 만족스럽게 출력되었습니다.

SeamlessM4T는 개인 로컬에 설치하고 실행도 가능합니다. 자세한 설치 절차는 아래에서 확인할 수 있습니다.

GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

Foundational Models for State-of-the-Art Speech and Text Translation - GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

