关于新功能top-p策略的想法 #60
KimamanaNeko
started this conversation in
Ideas
Replies: 2 comments 1 reply
-
你的超参数设置的是多少?你的二选似乎至少有epsilon/2的概率,如果epsilon过大是否会导致立直和和了的操作出现问题(我的epsilon设置的0.1,也就是会有5%的概率能和不和) |
Beta Was this translation helpful? Give feedback.
1 reply
-
如果目标是强化副露的探索,可以尝试
个人更偏好top-k(k=2)而不是top-p,因为麻将大多数情况都是二择。然后采样中单独提高了副露的选择概率,减少对其他行为的影响。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
在新的版本中我看到添加了top-p的方法。
我认为这确实能在探索效率上有很大进步。但是我认为可能在副露的探索上并不是很有效果
实际上我在v3版本已经有做过了类似的测试,结果形成了一些我从来每见到过的副露1v3统计数据
这是我在v4中的尝试
v4版本是否还能有效果我还在测试中
Beta Was this translation helpful? Give feedback.
All reactions