본문 바로가기
AI · 인공지능/AI 뉴스

구글이 텍스트와 음성을 처리 · 생성하며 음성 인식 및 번역 등을 지원하는 모델 'AudioPaLM' 발표

by 두우우부 2023. 6. 28.
반응형



Google이 ' AudioPaLM '을 발표했습니다. AudioPaLM은 텍스트 기반 언어 모델인 'PaLM 2'와 음성 기반 언어 모델인 'AudioLM'을 통합한 멀티모달 아키텍처로, 텍스트와 음성을 처리 · 생성하며 음성 인식 및 음성 번역 등의 애플리케이션 사용할 수 있습니다.

[2306.12925] AudioPaLM: A Large Language Model That Can Speak and Listen
https://doi.org/10.48550/arXiv.2306.12925


AudioPaLM
https://google-research.github.io/seanet/audiopalm/examples/


AudioPaLM은 AudioLM에서 말하는 속도, 음성 강도, 높이, 침묵, 억양 등의 준()언어(paralanguage : 화자가 청취자에게 주는 언어 정보 중, 억양, 리듬, 포즈, 성질 등의 주변 언어)의 정보를 유지하는 기능과 Palm 2가 가지는 언어 지식으로부터 텍스트와 음성을 하나의 모델로 처리 · 생성할 수 있습니다.

다음 영상에서는 실제로 입력한 음성(Original)과 AudioPaLM에서 다양한 언어로 번역한 음성(Translation with AudioPaLM)을 들어볼 수 있습니다.



다음은 AudioPaLM의 개요도입니다. "Audio & text tokenizers"로 입력한 음성에서 음성 토큰과 텍스트 토큰이 동시에 생성되어 각각이 음성 임베디드 매트릭스(Audio Embeddings Matrix)와 텍스트 임베디드 매트릭스(Text Embeddings Matrix)로 변환됩니다. 그리고, Decoder-only Transformer로 변환된 음성 토큰은 「AudioLM stages 2+3」으로, 텍스트 토큰은 「Text detokenizer」로 처리되어 음성이나 텍스트가 출력되는 흐름입니다.


Google에 따르면, Palm 2의 가중치로 AudioPaLM을 초기화함으로써 음성 처리가 개선되었다고 합니다. 이를 통해 사전 학습에 사용되는 대량의 텍스트 학습 데이터를 활용하여 음성 처리 작업을 지원할 수 있게 되어 결과적으로 음성 번역으로 기존 시스템을 크게 웃도는 성능을 보였다고 합니다. 특히 Google은 학습 데이터에 없었던 알 수 없는 음성 및 텍스트의 번역이 가능해졌다고 보고하고 있습니다.

AudioPaLM의 데모 사이트에서는 음성에서 음성으로의 번역 결과, 음성에서 텍스트로의 번역 결과, 영어 이외 음성의 문자 생성 데모가 공개되어 있습니다. 

언어에 따라 음성 데이터 세트에 포함되는 데이터 양에 차이가 있기 때문에,
프랑스어(FR) · 독일어(DE) · 카탈루냐어(CS) · 스페인어(ES)는 높은 정확도로 변환 가능하고,
페르시아어(FA) · 이탈리아어(IT) · 러시아어(RU) · 중국어(ZH) · 포르투갈어(PT)의 정확도는 중간 정도,
네덜란드어(NL) · 터키어(TR) · 에스토니아어(ET) · 몽골어(MN) · 아랍어(AR) · 라트비아어(LV) · 슬로베니아어(SL) · 스웨덴어(SV) · 웨일스어(CY) · 일본어(JA) · 타밀어(TA) · 인도네시아어(ID)의 정확도는 낮습니다.
 


덧붙여 AudioPaLM에서는, 짧은 음성 데이터로부터 화자와 같은 소리로 다른 언어로 번역하는 것도 가능하다고 합니다. 현재는 해외 영화를 각 나라의 성우들이 더빙하고 있습니다만, 이 AI 모델이 진화된다면 원래 배우의 목소리로 각국의 언어들로 번역되어 들을 수 있을 것으로 기대되고 있습니다.

반응형