본문 바로가기
AI · 인공지능/AI 뉴스

300개 이상의 언어로 훈련된 Google 번역 AI「Universal Speech Model(USM)」의 약진

by 두우우부 2023. 3. 9.
반응형

 

기계 학습에 의해 번역 소프트웨어의 성능은 비약적으로 진보하고 있습니다만, 지구상에 존재하는 언어 중에는 화자가 적고, 학습에 필요한 데이터가 불충분한 것도 있습니다. 

Google이, YouTube의 자막 생성에 이용되는 대규모 언어 모델「Universal Speech Model(USM)」을 300개 이상의 언어로 트레이닝하여, 비교적 마이너인 언어를 포함한 번역 태스크에서 매우 뛰어난 성능을 발휘했다고 보고했습니다.

Universal Speech Model

Universal Speech Model

Acknowledgements We thank all the co-authors for contributing to the project and paper including Andrew Rosenberg, Ankur Bapna, Bhuvana Ramabhadran, Bo Li, Chung-Cheng Chiu, Daniel Park, Françoise Beaufays, Gary Wang, Ginger Perng, James Qin, Jason Riesa,

sites.research.google


Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages – Google AI Blog

Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages

Posted by Yu Zhang, Research Scientist, and James Qin, Software Engineer, Google Research Last November, we announced the 1,000 Languages Initiative, an ambitious commitment to build a machine learning (ML) model that would support the world’s one thousa

ai.googleblog.com

Google’s one step closer to building its 1,000-language AI model - The Verge

Google’s one step closer to building its 1,000-language AI model

Google’s doing more work on its Universal Speech Model.

www.theverge.com



Google 은 2022년 11월에 1,000여 개의 언어에 대응하는 AI 모델을 구축하겠다는 야심적인 대처「1000 Languages Initiative」를 발표했습니다. 이 작업에서 과제가 되고 있는 것은, 기계 학습의 트레이닝에 이용 가능한 데이터 세트 및 화자가 적은 언어를 어떻게 지원하는가 하는 점입니다.

기존의 교사 학습에서는 시간과 비용을 들여 데이터 세트에 인력으로 라벨을 부여하거나 기존의 문자사용 데이터를 수집해야 했습니다. 그러나 화자가 비교적 적은 언어에서는 고품질의 데이터를 수집하기가 어렵고, 확장성이 부족하다는 문제가 있었습니다.

그래서 Google은 YouTube에서 자막의 생성에 이용되고 있는 USM(Universal Speech Model)을, 자기 교사 학습이라고 하는 기법을 이용해 트레이닝했다고 보고했습니다. 자기 교사 학습이란, 인간에 의한 라벨이 부여되어 있지 않은 데이터로부터 의사적 라벨을 자동 생성하는 수법이며, 문자가 없는 음성만의 데이터로도 학습이 가능합니다.

USM은 교육의 80%를 차지하는 첫 번째 단계에서 'BEST-RQ'라는 자기 교사 학습을 수행하고,
15%를 차지하는 두 번째 단계에서 텍스트 데이터를 추가한 사전 교육을 통해 모델의 품질을 향상하고,
5%를 차지하는 제3 단계에서는 타깃 태스크를 실시해 모델을 미조정했다고 합니다. 

Google은 "라벨 없는 대규모 다국어 데이터 세트를 사용하여 모델 인코더를 사전 학습하고 라벨이 적은 데이터 세트로 미세 조정하여 이러한 '사소한 언어들'을 인식할 수 있음을 입증했습니다. 또한 이 모델의 학습 과정은 새로운 언어와 데이터에 적응하는 데에도 효과적입니다."라고 코멘트.



USM은 300개 이상의 언어에 걸쳐 1,200만 시간의 음성 데이터와 280억 문장의 텍스트로 교육되며 20억 개의 매개변수를 가진 최첨단 음성 인식 AI라고 Google은 말합니다. USM은 영어와 베이징어와 같이 널리 사용되는 언어 외에도 마다가스카르어, 루오어, 소가어, 아삼어, 산탈어, 발리어, 쇼나어, 앙콜레어 등 교육 데이터 수집이 어려운 언어도 자동 음성인식이 가능하다고 합니다.

YouTube 자막의 다국어 음성 데이터를 이용한 검증에서 USM은 73개 언어의 평균으로 Word Error Rate(단어 오류율) 30% 미만을 달성하고 있으며, Google은 "지금까지 달성한 적이 없는 이정표"라고 코멘트. 또, 미국 영어의 번역에서도 최첨단 모델을 웃도는 성능을 발휘한 것 외에, OpenAI의 고성능 문자사용 AI「Whisper」가 단어 에러율 40% 미만의 18 언어를 대상으로 한 비교에서, USM 쪽이 평균 32.7% 낮은 단어 오류율을 기록했습니다.



아프리카계 미국인의 영어 데이터 세트인 CORAAL, 영어 데이터 세트의 SpeechStew, 102 언어를 포함한 데이터 세트의 FLEURS 를 사용해, USM과 Whisper에서 단어 에러율을 비교한 그래프가 아래입니다. 

도메인 내 데이터를 포함하지 않는 Whisper의 단어 오류율이 노란색,
도메인 내 데이터를 포함하지 않는 USM의 단어 오류율이 녹색,
도메인 내 데이터를 포함하는 USM의 단어 오류율이 파란색 막대로 표시되며
도메인 내 데이터의 유무와 상관없이 USM이 가장 낮은 단어 오류율을 기록하고 있습니다.


다음은 리소스의 가용성에 따라 언어를 High, Middle, Low로 분류하고 각 언어 그룹별로 기계 번역의 정확도를 나타내는 BLEU 스코어를 보여주는 그래프입니다.
BLEU 점수는 더 높을수록 번역 정확도가 뛰어나다는 것을 보여 주며, 두 그룹 모두 USM이 위스퍼를 능가한다는 것을 알 수 있습니다.


Google은, "USM의 개발은 전 세계의 정보를 정리하고 보편적으로 액세스 할 수 있도록 하는 Google의 미션 실행을 위해 중요한 부분입니다. USM의 기본 모델 아키텍처와 교육 파이프라인은 1,000개의 언어 지원 음성 모델로 확장할 수 있는 기반이 될 것이라고 믿습니다."라고 말하고 있습니다.

반응형