https://arxiv.org/abs/2307.02483
Jailbroken: How Does LLM Safety Training Fail? (Alexander Wei, Nika Haghtalab, Jacob Steinhardt)
gpt-4와 claude에 대한 탈옥 연구. 유저들은 끊임없이 탈옥 방법을 고안하고 openai나 anthropic은 그걸 막는 과정이 계속 반복되고 있죠. 물론 대놓고 harmful하면 후폭풍을 감당하기 어려울 것 같긴 하지만 이런 형태의 탈옥 시도에 뚫리는 것 자체가 정말로 문제가 되는 것일까...하는 생각도 들긴 합니다. 물론 초지능에 대해 우려하는 것처럼 탈옥을 했더니 모델이 서버를 뚫고 나오더라 이러면 문제가 되겠지만요.
#alignment