Reinforcement-Learning

강화학습을 공부하고, 코드를 구현해보는 학습공간입니다

Assignment1: Temporal-Difference Learning(TD(0))의 SARSA, Q-Learning, Expected-SARSA를 활용하여 Cliff-Walking 문제를 해결하고, 결과 분석
Assignment2: Cliff-Walking 문제에 off-policy n-step Sarsa 추가

중요 개념

요약:

SARSA: 다음 상태에서 실제로 선택한 행동을 사용하여 업데이트.
Q-Learning: 다음 상태에서 가장 큰 Q-value를 선택하여 업데이트.
Expected-SARSA: 다음 상태에서의 모든 행동에 대해 정책에 따른 기대값을 사용하여 업데이트.

1. SARSA (State-Action-Reward-State-Action)

SARSA는 현재 상태와 행동에 대한 Q-value를 업데이트합니다. 즉, 새로운 상태에서 취할 행동을 예측하여 업데이트합니다.

상태 업데이트 공식:

2. Q-Learning

Q-Learning은 오프-폴리시 알고리즘으로, 최적 행동을 선택하여 Q-value를 업데이트합니다. 현재 상태에서의 행동을 기반으로, 최대 보상을 얻을 수 있는 행동을 선택하여 업데이트합니다.

상태 업데이트 공식:

3. Expected-SARSA

Expected-SARSA는 SARSA의 변형으로, 현재 상태에서의 가능한 모든 행동에 대해 기대값을 계산하여 Q-value를 업데이트합니다. 이 방법은 정책을 확률적으로 따라가며 업데이트합니다.

상태 업데이트 공식:

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
20211145		20211145
Assignment1		Assignment1
Assingment2		Assingment2
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Reinforcement-Learning

중요 개념

요약:

1. SARSA (State-Action-Reward-State-Action)

2. Q-Learning

3. Expected-SARSA

About

Releases

Packages

Languages

haeun161/Reinforcement-Learning

Folders and files

Latest commit

History

Repository files navigation

Reinforcement-Learning

중요 개념

요약:

1. SARSA (State-Action-Reward-State-Action)

2. Q-Learning

3. Expected-SARSA

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages