Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 748 Bytes

220124 data2vec.md

File metadata and controls

9 lines (5 loc) · 748 Bytes

https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli)

이 친구를 읽어봤습니다. 비전 오디오 텍스트 대통합 self supervised learning. mask prediction 기반 방법인데 입력 자체를 reconstruction 하는 것이 아니라 ema teacher의 출력을 예측하게 만드는 방법입니다. 뭔가 mask prediction + byol 같네요.

대통합도 그렇지만 오디오 self supervision으로 의미가 크지 않나 싶습니다. 이걸 하던 저자들이기도 하고요.

#self_supervised