在使用连续动作空间时，输出的动作取值无法设置上下限 #9

xiaokang-99 · 2023-01-09T11:23:19Z

师兄您好，我在调整env_continuous.py文件中第30行代码u_action_space = spaces.Box(low=0.0, high=90.0, shape=(self.signal_action_dim,), dtype=np.float32)后，action取值并没有限制在0和90之间，请问师兄这是为什么呢?谢谢师兄了。

tinyzqh · 2023-01-11T14:11:56Z

网络输出并未基于环境的限制做缩放

xiaokang-99 · 2023-01-11T14:41:39Z

谢谢师兄

xiaokang-99 · 2023-01-12T02:05:30Z

感谢师兄百忙之中抽出时间回复我的问题，不胜感激。在 2023-01-11 22:12:07，"tinyzqh" ***@***.***> 写道：网络输出并未基于环境的限制做缩放 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

charleswangyanan · 2023-05-10T13:43:36Z

师兄您好，我在调整env_continuous.py文件中第30行代码u_action_space = spaces.Box(low=0.0, high=90.0, shape=(self.signal_action_dim,), dtype=np.float32)后，action取值并没有限制在0和90之间，请问师兄这是为什么呢?谢谢师兄了。

你好，请问最后怎么设置的动作上下限范围呢

DylanMingan · 2023-06-19T02:27:37Z

网络输出并未基于环境的限制做缩放

请问该如何缩放吗？
我已经调整过env_continuous.py文件中第30行代码u_action_space = spaces.Box(low=-1.0, high=1.0, shape=(self.signal_action_dim,), dtype=np.float32)。
想让上下限输出[-1,1]之间，是在下图直接做截断(clip(-1,1))吗？

还是说要在algorithms/utils/act.py这里输出的第83行后面对输出的正态分布概率再做一个tanh的激活函数，让它映射到[-1，1]之间？

希望可以得到您的回复，谢谢！

xiaokang-99 · 2023-06-19T02:59:37Z

我是在algorithms/utils/act.py这里输出的第83行后面对输出的正态分布概率再做一个tanh的激活函数，让它映射到[-1，1]之间。

xiaokang-99 · 2023-06-19T03:00:15Z

师兄您好，我在调整env_continuous.py文件中第30行代码u_action_space = spaces.Box(low=0.0, high=90.0, shape=(self.signal_action_dim,), dtype=np.float32)后，action取值并没有限制在0和90之间，请问师兄这是为什么呢?谢谢师兄了。

你好，请问最后怎么设置的动作上下限范围呢

不好意思，最近忙着毕业，才来得及回复你的消息，我是在algorithms/utils/act.py这里输出的第83行后面对输出的正态分布概率再做一个tanh的激活函数，让它映射到[-1，1]之间，然后在放大到所需要的区间上。

charleswangyanan · 2023-06-19T03:25:59Z

网络输出并未基于环境的限制做缩放

请问该如何缩放吗？我已经调整过env_continuous.py文件中第30行代码u_action_space = spaces.Box(low=-1.0, high=1.0, shape=(self.signal_action_dim,), dtype=np.float32)。想让上下限输出[-1,1]之间，是在下图直接做截断(clip(-1,1))吗？还是说要在algorithms/utils/act.py这里输出的第83行后面对输出的正态分布概率再做一个tanh的激活函数，让它映射到[-1，1]之间？希望可以得到您的回复，谢谢！
你好，请问第83行后面对输出的正态分布概率再做一个tanh的激活函数具体是怎么改的呢？

DylanMingan · 2023-06-19T13:03:52Z

我是在act.py的初始化加了self.tanh = nn.Tanh()

然后再第83后面加了actions = self.tanh(actions)

charleswangyanan · 2023-06-19T15:37:13Z

我是在env_runner.py里你想做截断那个地方加了这种归一化actions_env =(actions - np.min(actions)) / (np.max(actions) - np.min(actions))，不知道对不对，是不是actions和actions_env 都需要归一化，比如actions=(actions - np.min(actions)) / (np.max(actions) - np.min(actions))，actions_env =actions

DylanMingan · 2023-06-20T12:11:41Z

不清楚是不是要做归一化？但是看你的归一化代码好像是归一化到[0-1]?不知道符不符合你对输出的要求，我是听从了建议使用了tanh激活函数来实现[-1,1]的输出。当然我也调整了env_continuous.py文件中第30行代码，使u_action_space = spaces.Box(low=-1.0, high=1.0, shape=(self.signal_action_dim,), dtype=np.float32)。
同时我也疑问一个问题，用tanh实现[-1,1]的输出时候，还是要继续把u_action_space = spaces.Box(low=-1.0, high=1.0, shape=(self.signal_action_dim,), dtype=np.float32)中的low和high分别设置为-1.0和1.0，还是说设置为默认的low=-inf和high=inf?

Jin58857 · 2023-12-13T13:45:38Z

请问修改之后能训练出来吗？我在边在连续动作空间训练的时候，没有加tanh函数，能看出是在学习，但是到后面不收敛，曲线波动极大

qiyunying · 2024-05-19T13:40:31Z

师兄您好，我在调整env_continuous.py文件中第30行代码u_action_space = 空格.Box（low=0.0， high=90.0， shape=（self.signal_action_dim，）， dtype=np.float32）后，action取值并没有限制在0和90之间，请问师兄这是为什么呢？谢谢师兄了。

你好，请问最后怎么设置的动作上下限范围呢

不好意思，最近忙着毕业，才来得及回复你的消息，我是在algorithms/utils/act.py 这里输出的第83行后面对输出的正态分布概率再做一个tanh的激活函数，让它映射到[-1,1]之间，然后在放大到所需要的区间上。

你好，我在这样映射之后，action在训练过程中出现了nan，想请教有没有解决的办法

krendluck · 2024-11-20T06:32:44Z

师兄您好，我在调整env_continuous.py文件中第30行代码u_action_space = 空格.Box（low=0.0， high=90.0， shape=（self.signal_action_dim，）， dtype=np.float32）后，action取值并没有限制在0和90之间，请问师兄这是为什么呢？谢谢师兄了。

你好，请问最后怎么设置的动作上下限范围呢

不好意思，最近忙着毕业，才来得及回复你的消息，我是在algorithms/utils/act.py 这里输出的第83行后面对输出的正态分布概率再做一个tanh的激活函数，让它映射到[-1,1]之间，然后在放大到所需要的区间上。

你好，我在这样映射之后，action在训练过程中出现了nan，想请教有没有解决的办法

请问解决了吗，我也遇到同样的问题

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在使用连续动作空间时，输出的动作取值无法设置上下限 #9

在使用连续动作空间时，输出的动作取值无法设置上下限 #9

xiaokang-99 commented Jan 9, 2023

tinyzqh commented Jan 11, 2023

xiaokang-99 commented Jan 11, 2023

xiaokang-99 commented Jan 12, 2023 via email

charleswangyanan commented May 10, 2023

DylanMingan commented Jun 19, 2023

xiaokang-99 commented Jun 19, 2023

xiaokang-99 commented Jun 19, 2023 •

edited

Loading

charleswangyanan commented Jun 19, 2023

DylanMingan commented Jun 19, 2023

charleswangyanan commented Jun 19, 2023

DylanMingan commented Jun 20, 2023

Jin58857 commented Dec 13, 2023

qiyunying commented May 19, 2024

krendluck commented Nov 20, 2024

在使用连续动作空间时，输出的动作取值无法设置上下限 #9

在使用连续动作空间时，输出的动作取值无法设置上下限 #9

Comments

xiaokang-99 commented Jan 9, 2023

tinyzqh commented Jan 11, 2023

xiaokang-99 commented Jan 11, 2023

xiaokang-99 commented Jan 12, 2023 via email

charleswangyanan commented May 10, 2023

DylanMingan commented Jun 19, 2023

xiaokang-99 commented Jun 19, 2023

xiaokang-99 commented Jun 19, 2023 • edited Loading

charleswangyanan commented Jun 19, 2023

DylanMingan commented Jun 19, 2023

charleswangyanan commented Jun 19, 2023

DylanMingan commented Jun 20, 2023

Jin58857 commented Dec 13, 2023

qiyunying commented May 19, 2024

krendluck commented Nov 20, 2024

xiaokang-99 commented Jun 19, 2023 •

edited

Loading