https://arxiv.org/abs/2002.02562
Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss (Qian Zhang, Han Lu, Hasim Sak, Anshuman Tripathi, Erik McDermott, Stephen Koo, Shankar Kumar)
구글표 RNN-Transducer 기반 Streaming ASR 모델. 스트리밍 모델에서는 Transducer의 중요도가 높아지는 듯. 기본적으로 트랜스포머에 트랜스듀서를 올린 형태이고 마스킹 방식에 대한 실험을 수행함. 스트리밍 요구사항이 없는 경우에는 역시 LAS가 흥미로운 결과를 보여줌.
#asr #transducer #transformer