코드 인터프리터에서 코드 실행 결과를 보고 코드를 다시 고쳐서 재실행하는 것 -> 특정한 해법을 시도해보고 그 결과에 따라 해법을 고쳐서 재시도하는 것.
이 틀에서 이런 해법의 시도와 평가를 상당 부분 실제 시도 없이 할 수 있다고 하면 planning과 상통하는 것 같음. 각 단계에 대한 평가를 단계별 reward model로 할 수 있음. 그렇다면 planning이 가능한 게 아닐까?
이 단계를 differentiable 하게 할 수 있을까?