data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli)
이 친구를 읽어봤습니다. 비전 오디오 텍스트 대통합 self supervised learning. mask prediction 기반 방법인데 입력 자체를 reconstruction 하는 것이 아니라 ema teacher의 출력을 예측하게 만드는 방법입니다. 뭔가 mask prediction + byol 같네요.
대통합도 그렇지만 오디오 self supervision으로 의미가 크지 않나 싶습니다. 이걸 하던 저자들이기도 하고요.
#self_supervised