Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 779 Bytes

211027 Neural Analysis and Synthesis.md

File metadata and controls

9 lines (5 loc) · 779 Bytes

https://arxiv.org/abs/2110.14513

Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations (Hyeong-Seok Choi, Juheon Lee, Wansoo Kim, Jie Hwan Lee, Hoon Heo, Kyogu Lee)

wav2vec 2.0에서 추출한 feature와 yin algorithm으로 추출한 feature를 reconstruction하는 방식으로 self supervision으로 학습됐네요. voice conversion은 이 feature들을 교체하는 방식으로 가능합니다. 이 feature들 속에 pitch나 speaker 정보가 섞이지 않도록 perturbation을 주는 작업이 중요하겠습니다.

오디오 생성이나 오디오 변환도 요즘 꽤 재밌는 결과들이 나오네요. 이 모델도 집에 하나 들여놓으면 가지고 놀기 재미있을 듯 합니다.

#audio_synthesis #self_supervised