https://arxiv.org/abs/2306.12925
AudioPaLM: A Large Language Model That Can Speak and Listen (Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor, Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank)
LLM에 이미지 입력이 들어가는 것처럼 곧 오디오 입력이 들어갈 것이라는 예측이 많았는데 PaLM 2에서 먼저 공개했군요. 오디오를 토큰화해서 입력하는 단순한 방법입니다. 오디오 입출력이 가능해지니 speech translation, asr, speech to text translation 등등이 가능해졌군요.
#llm #audio #speech