Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 864 Bytes

230302 Google USM.md

File metadata and controls

7 lines (4 loc) · 864 Bytes

https://arxiv.org/abs/2303.01037

Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages (Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Françoise Beaufays, Yonghui Wu)

300개 언어에 대해 1200만 시간 분량의 오디오로 unsupervised audio/language pretraining + asr training을 수행한 2B conformer 모델이군요. ChatGPT는 그렇다치고 전통적인(?) 분야인 NMT에서는 DeepL이 등장하고 ASR에서는 Whisper가 저렴하게 API로 공개되고 있으니 이쪽도 골치 아프겠다 싶네요.

#asr #multilingual