본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 오픈소스 음성 인식 모델 「Massively Multilingual Speech(MMS)」를 발표

by 두우우부 2023. 5. 24.
반응형

 

AI 개발에 주력하고 있는 Meta가 1,100개 이상의 언어에서 음성으로 문장 생성하거나 읽을 수 있는 음성 인식 모델  「Masively Multilingual Speech(MMS)」를 발표했습니다. 
 
MMS는 기존의 대규모 다언어 음성 인식 모델을 크게 상회하는 언어들에 대응하고 있어, 화자가 적은 언어에서도 다양한 정보에 액세스 하기 쉬워질 것으로 기대되고 있습니다.

Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
https://ai.facebook.com/blog/multilingual-model-speech-recognition/


fairseq/examples/mms at main · facebookresearch/fairseq · GitHub
https://github.com/facebookresearch/fairseq/tree/main/examples/mms

GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

github.com

 
Meta는 이전부터 전 세계 언어를 실시간으로 번역하는 AI Babelfish의 개발을 발표하는 등 음성인식 및 번역 AI의 개발에 주력해 왔습니다.

고품질의 기계 학습 모델을 생성하려면 많은 양의 라벨링 데이터가 필요하며 음성 인식 모델의 경우 수천 시간의 음성 및 문장 데이터가 필요합니다. 그러나 지구상에서 말해지고 있는 7천 개 이상의 언어 중 대부분은 질 좋은 데이터가 없고, 기존의 음성인식 모델은 약 100여 개의 언어를 커버하는 것에 그치고 있습니다.

그래서 Meta는 라벨 없는 데이터로도 학습할 수 있는 자기 교사 학습을 채용한 음성 인식 프레임워크  「Wav2vec 2.0」을 사용해, MMS 프로젝트에 있어서, 화자가 적은 언어의 라벨링 된 데이터의 부족을 극복했다고 합니다. 또한 Meta는 프로젝트의 일환으로 1,100개 이상의 언어로 '신약 성경 읽기 데이터 세트'를 만들고 MMS를 교육하고 있습니다. 신약 성경을 비롯한 종교 문헌은 다양한 언어로 번역되고 있으며, 텍스트 기반 언어 번역 연구를 위해 널리 연구되고 있기 때문에 음성 인식 모델의 개발에도 유용하다는 것.

Meta가 공개하는 동영상에서는 MMS가 다양한 언어를 실시간으로 문자화하는 모습을 볼 수 있습니다. 

에리트레아나 에티오피아에서 이야기되고 있는 티그리냐어.



필리핀의 루손 섬 북부에서 말하는 이로카노어.



인도와 네팔의 일부에서 말하는 마이티리어.



이란 북부에서 서부에 걸쳐 사용하는 기라키어.



나이지리아나 베낭, 토고에 사는 요르바인이 사용하는 요르바어.



멕시코의 원주민족인 사포테크족 중 약 8만 5천 명 정도가 말한다는 사포테크어.



MMS는 다음 세계지도에 보라색 삼각형으로 표시되는 1,107개의 언어로 문자 생성 및 문장 읽기에 대응하고 있으며, 녹색 원으로 표시된 4,000개 이상의 언어를 식별할 수 있다는 것.



훈련에 사용한 음성 데이터는 남성 화자에 의해 읽히는 것이 많았다고 합니다만, Meta의 분석에 의하면, MMS는 남성 및 여성의 음성에 대해서 거의 동등하게 기능한다고 합니다. 음성인식 에러율을 조사한 아래의 그래프를 보면, 남성(Male)의 에러율은 12.3이고, 여성(Female)의 에러율은 12.4로 되어 있습니다.



또한 자기 교사 학습을 채택한 Wav2vec 2.0을 사용하여 훈련된 MMS는 언어 수가 61에서 1,107개로 증가해도 오류율이 0.4%밖에 증가하지 않았다고 합니다.



Meta는 연구 커뮤니티가 MMS를 기반으로 추가 연구를 진행할 수 있도록 모델 및 코드를 GitHub에 게시했습니다

fairseq/examples/mms at main · facebookresearch/fairseq · GitHub
https://github.com/facebookresearch/fairseq/tree/main/examples/mms

GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

github.com


GitHub는 MMS가 오픈 소스로 공개되는 점을 높이 평가했습니다.

반응형