Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages (Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Françoise Beaufays, Yonghui Wu)

300개 언어에 대해 1200만 시간 분량의 오디오로 unsupervised audio/language pretraining + asr training을 수행한 2B conformer 모델이군요. ChatGPT는 그렇다치고 전통적인(?) 분야인 NMT에서는 DeepL이 등장하고 ASR에서는 Whisper가 저렴하게 API로 공개되고 있으니 이쪽도 골치 아프겠다 싶네요.

#asr #multilingual

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230302 Google USM.md

230302 Google USM.md

Files

230302 Google USM.md

Latest commit

History

230302 Google USM.md

File metadata and controls