关于新功能top-p策略的想法 #60

KimamanaNeko · 2023-11-06T12:29:15Z

KimamanaNeko
Nov 6, 2023

在新的版本中我看到添加了top-p的方法。
我认为这确实能在探索效率上有很大进步。但是我认为可能在副露的探索上并不是很有效果
实际上我在v3版本已经有做过了类似的测试，结果形成了一些我从来每见到过的副露1v3统计数据

这是我在v4中的尝试

        if self.boltzmann_epsilon > 0:
            is_greedy = torch.full((batch_size,), 1-self.boltzmann_epsilon, device=self.device).bernoulli().to(torch.bool)
            logits = (q_out / self.boltzmann_temp).masked_fill(~masks, -torch.inf)
            sampled = sample_top_p(logits, self.top_p)

            # 找出第二大的 q 值对应的动作
            _, indices = torch.sort(q_out, dim=1, descending=True)
            second_best_actions = indices[:, 1]

            # 将这两种策略的结果结合起来
            actions = torch.where(is_greedy, q_out.argmax(-1), torch.where(torch.rand((batch_size,), device=self.device) < 0.5, sampled, second_best_actions))

v4版本是否还能有效果我还在测试中

hyskylord · 2023-11-12T23:41:39Z

hyskylord
Nov 12, 2023

你的超参数设置的是多少？你的二选似乎至少有epsilon/2的概率，如果epsilon过大是否会导致立直和和了的操作出现问题（我的epsilon设置的0.1，也就是会有5%的概率能和不和）

1 reply

KimamanaNeko Nov 13, 2023
Author

贪婪我有手动在变化，基本上由大到小的顺序。如果你是全部行动的5%，我认为太高了
应该不会过于影响模型性能，就像offline，也会有人选择不和
而且你能自己改动二位率的概率来调整探索

hyskylord · 2024-09-12T11:28:42Z

hyskylord
Sep 12, 2024

如果目标是强化副露的探索，可以尝试

def sample_top_two_fuuro_enhance(logits):
    probs = logits.softmax(-1)
    probs_sort, probs_idx = torch.topk(probs,2)
    mask = torch.logical_and(torch.logical_and(probs_idx > 36, probs_idx < 45), probs_sort > 0.0)
#如果是副露，则概率单独+0.1
    probs_sort[mask] += 0.1
    sampled = probs_idx.gather(-1, probs_sort.multinomial(1)).squeeze(-1)
    return sampled

个人更偏好top-k（k=2）而不是top-p，因为麻将大多数情况都是二择。然后采样中单独提高了副露的选择概率，减少对其他行为的影响。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于新功能top-p策略的想法 #60

{{title}}

Replies: 2 comments 1 reply

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Select a reply

关于新功能top-p策略的想法 #60

KimamanaNeko Nov 6, 2023

Replies: 2 comments · 1 reply

hyskylord Nov 12, 2023

KimamanaNeko Nov 13, 2023 Author

hyskylord Sep 12, 2024

KimamanaNeko
Nov 6, 2023

Replies: 2 comments 1 reply

hyskylord
Nov 12, 2023

KimamanaNeko Nov 13, 2023
Author

hyskylord
Sep 12, 2024