https://arxiv.org/abs/2305.07922
CodeT5+: Open Code Large Language Models for Code Understanding and Generation (Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi)
salesforce에서 code llm을 하나 더 냈군요. 흥미롭게도 T5 기반입니다. unimodal code 데이터에 1차 프리트레이닝, docstring text와 code bimodal 데이터를 사용한 2차 프리트레이닝과 함께 span denoising, causal lm, constrastive loss 등을 사용해서 학습하고, 인코더/디코더 only 혹은 seq2seq 모델로 사용하는 방법을 구상했네요.
code llm pretraining objective에 대해서 고민을 많이 한 것 같던데 이게 그 결론일까 싶네요.
#llm