https://arxiv.org/abs/2109.06870
Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition (Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi)
wav2vec 2.0을 깎아서 더 빠르고 정확하게 만들었군요. ocr도 img2vec 같은 게 하나 있으면 좋을까 하는 생각이 드네요.
#asr #pretraining