Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 610 Bytes

200207 Transformer Transducer.md

File metadata and controls

7 lines (4 loc) · 610 Bytes

https://arxiv.org/abs/2002.02562

Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss (Qian Zhang, Han Lu, Hasim Sak, Anshuman Tripathi, Erik McDermott, Stephen Koo, Shankar Kumar)

구글표 RNN-Transducer 기반 Streaming ASR 모델. 스트리밍 모델에서는 Transducer의 중요도가 높아지는 듯. 기본적으로 트랜스포머에 트랜스듀서를 올린 형태이고 마스킹 방식에 대한 실험을 수행함. 스트리밍 요구사항이 없는 경우에는 역시 LAS가 흥미로운 결과를 보여줌.

#asr #transducer #transformer