
Meta가 음성을 입력하는 것만으로 「음성 인식 텍스트 생성」, 「다른 언어로의 번역」, 「다른 언어로의 더빙」을 동시에 실행할 수 있는 AI 「SeamlessM4T」를 2023년 8월 22일에 공개했습니다.
Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta
Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta
SeamlessM4T allows people to communicate effortlessly through speech and text across different languages.
about.fb.com
Introducing a foundational multimodal model for speech translation
Introducing a foundational multimodal model for speech translation
Download the code, model, and data This blog post was made possible by the work of Bapi Akula, Pierre Andrews, Can Balioglu, Loïc Barrault, Onur Çelebi, Peng-Jen Chen, Yu-An Chung, Mariano Cora Meglioli, David Dale, Ning Dong, Paul-Ambroise Duquenne, Naj
ai.meta.com
텍스트 생성 AI나 번역 AI는 복수 존재합니다만, 기존 AI의 대부분은 텍스트 생성이나 번역 등의 단일 기능만 가능했습니다. Meta가 새롭게 개발한 SeamlessM4T는 멀티모달 AI로, 단일 AI만으로도 복수의 조작이 가능합니다.
SeamlessM4T는 한국어 음성 입력에도 대응하고 있어, 한국어 · 영어 · 중국어 · 프랑스어 · 일본어 등을 포함한 35개 언어 출력을 서포트하고 있습니다. 누구나 사용할 수 있는 데모도 공개되어 있기 때문에, 실제로 데모를 사용해 얼마나 고정밀도의 텍스트를 생성할 수 있는지 시험해 보았습니다.
Seamless Communication Translation Demo
https://seamless.metademolab.com/
위 데모에 액세스하면 다음 화면이 표시되므로 'START DEMO' 버튼을 클릭합니다.

데모 이용약관을 읽고 동의합니다.

그러면 데모를 실행 가능하게 되며, 「START RECORDING」을 클릭합니다.
(마이크 사용 권한을 묻는 메시지가 표시되면 허용을 클릭합니다.)

화면에 "Recording"이 표시되면 마이크를 향해 발화하고, "STOP RECORDING"을 클릭합니다.
(저의 경우엔 뉴스 기사 일부를 소리내어 읽어 보았습니다.)

화면이 전환되면 번역할 언어를 선택하기 위해 아래로 스크롤합니다.

번역가능 언어 목록이 표시되면 원하는 언어를 클릭한 다음 TRANSLATE를 클릭합니다.

조금 기다리면, 「자동 음성 인식」, 「텍스트 번역」, 「스피치 번역(더빙)」항목이 출력되고, 백그라운드에서 AI의 생성 및 번역 작업이 진행됩니다.

조금 더 기다리니 생성이 완료되었습니다.

저의 비루한 발음에도 불구하고, 음성인식률이 아주 훌륭했습니다. 또한, 번역 결과도 양호하고 더빙도 만족스럽게 출력되었습니다.
SeamlessM4T는 개인 로컬에 설치하고 실행도 가능합니다. 자세한 설치 절차는 아래에서 확인할 수 있습니다.
GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation
https://github.com/facebookresearch/seamless_communication
GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation
Foundational Models for State-of-the-Art Speech and Text Translation - GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation
github.com

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
망막 스캔을 통한 AI 분석으로 파킨슨병을 발병 7년 전에 검출 가능하다고 보고 (2) | 2023.08.25 |
---|---|
식도암과 위암을 3년 전에 미리 예측할 수 있는 AI 기술이 등장 (1) | 2023.08.25 |
ChatGPT의 답변을 「팩트 체크」하는 툴, 「FacTool」을 Meta와 상하이교통대가 개발 (2) | 2023.08.24 |
IBM이 AI를 활용하여 COBOL 언어를 Java로 변환하는 「Watsonx Code Assistant for Z」를 출시한다고 발표 (3) | 2023.08.24 |
생성 AI의 진보에 큰 영향을 미친 'Transformer'를 개발한 연구자들은 왜 Google을 떠났는가? (1) | 2023.08.22 |
디즈니가 대규모 AI 도입을 위한 태스크포스 설립, 새로운 전문가를 구인중 (2) | 2023.08.21 |
AI로 생성된 그라비아가 「Kindle Unlimited」 에서 대인기, 언캐니 밸리를 넘었나 (2) | 2023.08.21 |
대화형 AI 컨택 센터가 시장에서 꾸준히 성장할 것으로 Gartner가 분석 (1) | 2023.08.21 |