https://arxiv.org/abs/2302.14520
Large Language Models Are State-of-the-Art Evaluators of Translation Quality (Tom Kocmi, Christian Federmann)
instructgpt로 nmt 평가 메트릭의 sota를 달성할 수 있다는 결과. 적당히 human reference에 비교해 번역 결과가 0에서 100까지에서 어느 정도 수준인지 스코어를 찍으라고 하면 되는 군요.
BLEU를 많이들 치우고 싶어했던 것 같은데 그렇게 성공적이지 못했던 것처럼 이런 메트릭이 얼마나 널리 받아들여질지는 모르겠지만...nmt를 개발하는 곳에서는 유용할 수도 있겠네요.
#nmt #metric