https://www.deepmind.com/research/publications/2022/Red-Teaming-Language-Models-with-Language-Models
lm에서 문제가 되는 텍스트를 생성하게 만드는 프롬프트를 찾기. 문제가 있는지를 평가하는 분류기에 대해 문제가 되는 텍스트를 생성하게 만드는 프롬프트를 생성하는 lm을 학습시키는 방식을 썼습니다. rl로 학습시켰을 때가 베스트이긴 하네요.
딥마인드가 굉장히 의도적으로 이런 작업들을 해보고 있는 것 같은데...어떤 게 나올지 궁금하네요. 다만 현실의 인간들은 red lm보다 더 악의적이고 더 집요하겠죠.
별개로 생성되는 대화문의 퀄리티가 굉장하네요.
#lm #safety