https://arxiv.org/abs/2305.04160
X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages (Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu)
별 관계는 없지만 Grammar as a Foreign Language가 떠오르는 제목이군요. 이미지나 비디오에서 BLIP-2, 오디오에 대해서 ASR을 사용해 텍스트와 비교적 정렬된 임베딩을 만들고, 어댑터를 달아서 LLM과 연결하는 스타일의 방법입니다. 전 이런 걸 보면 늘 OCR 성능이 궁금하네요.
#multimodal