Meta가 오픈소스 음성 인식 모델 「Massively Multilingual Speech(MMS)」를 발표

AI 개발에 주력하고 있는 Meta가 1,100개 이상의 언어에서 음성으로 문장 생성하거나 읽을 수 있는 음성 인식 모델 「Masively Multilingual Speech(MMS)」를 발표했습니다.

MMS는 기존의 대규모 다언어 음성 인식 모델을 크게 상회하는 언어들에 대응하고 있어, 화자가 적은 언어에서도 다양한 정보에 액세스 하기 쉬워질 것으로 기대되고 있습니다.

Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
https://ai.facebook.com/blog/multilingual-model-speech-recognition/

fairseq/examples/mms at main · facebookresearch/fairseq · GitHub
https://github.com/facebookresearch/fairseq/tree/main/examples/mms

GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

github.com

Meta는 이전부터 전 세계 언어를 실시간으로 번역하는 AI Babelfish의 개발을 발표하는 등 음성인식 및 번역 AI의 개발에 주력해 왔습니다.

고품질의 기계 학습 모델을 생성하려면 많은 양의 라벨링 데이터가 필요하며 음성 인식 모델의 경우 수천 시간의 음성 및 문장 데이터가 필요합니다. 그러나 지구상에서 말해지고 있는 7천 개 이상의 언어 중 대부분은 질 좋은 데이터가 없고, 기존의 음성인식 모델은 약 100여 개의 언어를 커버하는 것에 그치고 있습니다.

그래서 Meta는 라벨 없는 데이터로도 학습할 수 있는 자기 교사 학습을 채용한 음성 인식 프레임워크 「Wav2vec 2.0」을 사용해, MMS 프로젝트에 있어서, 화자가 적은 언어의 라벨링 된 데이터의 부족을 극복했다고 합니다. 또한 Meta는 프로젝트의 일환으로 1,100개 이상의 언어로 '신약 성경 읽기 데이터 세트'를 만들고 MMS를 교육하고 있습니다. 신약 성경을 비롯한 종교 문헌은 다양한 언어로 번역되고 있으며, 텍스트 기반 언어 번역 연구를 위해 널리 연구되고 있기 때문에 음성 인식 모델의 개발에도 유용하다는 것.

Meta가 공개하는 동영상에서는 MMS가 다양한 언어를 실시간으로 문자화하는 모습을 볼 수 있습니다.

에리트레아나 에티오피아에서 이야기되고 있는 티그리냐어.

필리핀의 루손 섬 북부에서 말하는 이로카노어.

인도와 네팔의 일부에서 말하는 마이티리어.

이란 북부에서 서부에 걸쳐 사용하는 기라키어.

나이지리아나 베낭, 토고에 사는 요르바인이 사용하는 요르바어.

멕시코의 원주민족인 사포테크족 중 약 8만 5천 명 정도가 말한다는 사포테크어.

MMS는 다음 세계지도에 보라색 삼각형으로 표시되는 1,107개의 언어로 문자 생성 및 문장 읽기에 대응하고 있으며, 녹색 원으로 표시된 4,000개 이상의 언어를 식별할 수 있다는 것.

훈련에 사용한 음성 데이터는 남성 화자에 의해 읽히는 것이 많았다고 합니다만, Meta의 분석에 의하면, MMS는 남성 및 여성의 음성에 대해서 거의 동등하게 기능한다고 합니다. 음성인식 에러율을 조사한 아래의 그래프를 보면, 남성(Male)의 에러율은 12.3이고, 여성(Female)의 에러율은 12.4로 되어 있습니다.

또한 자기 교사 학습을 채택한 Wav2vec 2.0을 사용하여 훈련된 MMS는 언어 수가 61에서 1,107개로 증가해도 오류율이 0.4%밖에 증가하지 않았다고 합니다.

Meta는 연구 커뮤니티가 MMS를 기반으로 추가 연구를 진행할 수 있도록 모델 및 코드를 GitHub에 게시했습니다.

fairseq/examples/mms at main · facebookresearch/fairseq · GitHub
https://github.com/facebookresearch/fairseq/tree/main/examples/mms

GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

github.com

GitHub는 MMS가 오픈 소스로 공개되는 점을 높이 평가했습니다.

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

스탠퍼드가 인간의 평가를 흉내내어 고속으로 저렴하게 채팅 AI를 학습시키는 'AlpacaFarm' 공개 (2)	2023.05.25
이미지 생성 AI나 ChatGPT 등의 제네레이티브 AI는 게임 개발 방식을 크게 바꾸고 있다 (2)	2023.05.24
OpenAI가 「초지능 AI」의 등장에 대비하기 위해 세계적인 규제 기관을 도입하자고 주장 (2)	2023.05.24
Intel이 초당 200경 회 계산하는 슈퍼컴을 사용해 1조 파라미터의 생성 AI를 개발 중 (2)	2023.05.24
'펜타곤 근처 폭발' 가짜 이미지가 트위터 인증 계정으로 확산되어 주식시장 혼란 (2)	2023.05.23
시진핑과 곰돌이 푸의 비교가 중국제 채팅 AI 'Ernie'에서는 봉인되고 있다 (2)	2023.05.23
일본에서 '제너레이티브 AI와 패션의 미래' 이벤트 개최, ChatGPT와 Midjourney로 패션은 어떻게 바뀌는가? (4)	2023.05.23
상대는 인간? AI? 튜링 테스트 게임 「Human or not?」 을 플레이 해 보았다 (3)	2023.05.23

두우우부

Meta가 오픈소스 음성 인식 모델 「Massively Multilingual Speech(MMS)」를 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

Meta가 오픈소스 음성 인식 모델 「Massively Multilingual Speech(MMS)」를 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바