Frank
Frank
发布于 2020-09-27 / 42 阅读
0
0

最大剥削策略

最大剥削策略(MES)定义

MES策略和GTO策略,是当前扑克理论讨论的焦点之一。

Maximally Exploitative Strategy,最大剥削策略,是指针对一个对手的特定策略,选择的EV最大化响应的策略(策略空间)。

在Modern Poker Theory一书中,作者还提出了MinES,最小剥削策略(Page. 88)。

是不是存在一个最小剥削策略?

最小剥削策略有没有边界?

通过Node Locking,Solver计算出的策略究竟是MES还是MinES?

本文拟用GTO+和CREV软件进行模拟,来解答以上问题。

通灵游戏AKQ

我们先用Solver模拟MPT Page. 70中的通灵游戏AKQ。

这个ToyGame非常简单,均衡策略树如下:

P1会Bet 100%的AA、50%的QQ,EV=75;

[公式]

P2会Call 50%的KK,EV=25。

分别用CREV和GTO+来模拟:

## GTO与剥削策略

在通灵游戏中,我们发现P2有OverCall的倾向。在长期统计中,P2的KK的跟注率是55%,那么我们应该采用什么样的剥削策略呢?

先假设我们用GTO策略应对:

可以看出,P1对P2 55%跟注的策略无动于衷,综合EV仍然是75。

当P1把下注策略调整为Bet 100%的AA、45%的QQ,采用这个剥削策略时,

P1的综合EV变为75.25。

当P1把下注策略调整为Bet 100%的AA、0%的QQ,采用MES时,

P1的综合EV变为77.5。

按MPT的说法,这就是MinES(最小剥削策略)和MES(最大剥削策略)。

为了验证GTO策略的EV的不变性,我们把P1的策略调整为Bet 100%的AA、45%的QQ,而P2仍然按照Call 50%的KK的GTO策略来应对。

P1的EV仍然是75,P2并没有获得P1泄露的EV。

推论:GTO策略保证的是最低的EV,无论对手是否偏离,GTO策略的EV是固定的。而在观察到对手的失衡之处后,Exploitative Play无疑带来更高的EV。当对手没有反制剥削时(Counter-Exploit),最大剥削策略是综合EV最大化的策略。

Solver的节点锁定

通过上述的CREV的验证,我们已经得知当P2的跟注频率为55%时,MES的EV应该77.5。现在让我们用GTO+的节点锁定功能来测试。

到底节点锁定得到的是MinES还是MES呢?

重新解算后:

可以看到,Solver的下注策略调整为MES的Bet 100%的AA、0%的QQ。

综合EV=77.5。

同样的,假设P2的跟注频率只有45%时(Overfold)时,用Solver算出P1的MES策略如下:

可以看到,Solver立即调整到Bet 100%的AA,100%的QQ,MES EV=77.5。

推论:因为始终在寻找EV最大化,Solver通过节点锁定计算的策略是MES策略。

最小剥削策略?

我们已经知道,当我们发现KK多call了5%时,我们的MES EV=77.5,GTO EV=75。

按MPT的说法,MinES应该是Bet 100%的AA、45%的QQ,这时EV=75.25。

那么,如果我们采用Bet 100%的AA、49%的QQ的剥削策略呢?

这个策略的综合EV是75.05,大于GTO的75。那么,最小剥削策略难道不是这个策略吗?

这里,提出与MPT不同的观点。

推论:只有MES策略,没有MinES策略,高于GTO策略的EV值(75)就是剥削策略。作为连续变量,最小剥削策略的边界(收敛于)GTO策略。

MES的问题

通过上述推导,当我们发现KK多call了5%时,我们的MES EV=77.5,GTO EV=75。

那么,我们为什么不一直采用MES呢?

MES策略舍弃了所有诈唬手牌,Bet 100%的AA、0%的QQ。当P2用55% call的策略showdown后,他势必会发现我们没有诈唬牌,所有的下注都是AA。

所以,P2可以简单调整到Fold 100%的KK,这时,MES的综合EV变为:

EV=50,P1的MES策略因为P2的反制,相对于GTO基准策略损失了25的EV。

而当我们采用Bet 100%的AA、45%的QQ的策略时,相对于Call 55%的KK的策略,我们的EV是75.25。

当对手调整为Call 45%的KK的策略时,我们的EV是:

EV=74.75,P1的MES策略因为P2的反制,相对于GTO基准策略损失了0.25的EV。

推论:采用MES策略时,在我们得到最大综合EV的同时,也承受着对手最大的反制风险,有可能损失最大的综合EV。采用相对不那么极端的剥削策略,我们可能受到的反制损失也会略小。

结论

1、在准确判断对手策略后,MES策略有比GTO策略更高的综合EV。

2、Solver通过节点锁定计算出的策略是MES策略。

3、没有MinES策略,可以把GTO策略看做Exploitative Play的起点。

4、采用MES策略获得最大EV的同时,要注意可能受到对手的反制剥削,并可能承担最大的损失。


评论