Skip to content

Latest commit

 

History

History
5 lines (3 loc) · 535 Bytes

230714 Code Interpreter.md

File metadata and controls

5 lines (3 loc) · 535 Bytes

코드 인터프리터에서 코드 실행 결과를 보고 코드를 다시 고쳐서 재실행하는 것 -> 특정한 해법을 시도해보고 그 결과에 따라 해법을 고쳐서 재시도하는 것.

이 틀에서 이런 해법의 시도와 평가를 상당 부분 실제 시도 없이 할 수 있다고 하면 planning과 상통하는 것 같음. 각 단계에 대한 평가를 단계별 reward model로 할 수 있음. 그렇다면 planning이 가능한 게 아닐까?

이 단계를 differentiable 하게 할 수 있을까?