《合作的进化》

囚徒困境重复囚徒困境最优解

以囚徒困境为例，讨论什么策略最好。
首先确定下，不是什么博弈情况都属于囚徒困境的。
囚徒困境条件：双方合作>双方背叛，2x双方合作 > 单方背叛
策略没有绝对的好与坏，某个策略是否好取决于和你博弈的是什么策略。

单次or有限次数囚徒困境下，背叛是纸面上最优的选项。
但如果是无限次重复囚徒困境，则「一报还一报」策略最佳：即合作开局，后面每次模仿对方的行为合作or背叛。

如伴侣、兄弟亲人、最亲密的朋友等双方。在一个很长的相处时间下，即有无数次博弈，那一报还一报即为最优解，且以合作开局。
同理还有社会社交，面对各种需要经常交往的人（他们有不同策略）时，一报还一报策略自然也是最优解。
传统意义上的老好人，以德报怨，则不是一种好的策略，容易被策略上占便宜。

策略的善良性

书中实验的次优解也有很好的启发，表明总体上「善良」的策略，即「不首先背叛」的策略总体得到更高的分。那更善良的策略是不是会更好呢？书里第一轮结束后的更宽容版本的「两报还一报」策略就是，它如果放在第一轮则会第一，但在已知第一轮结果的第二轮中，在有更多针对性占便宜的策略进入时，表现的就不如普通的「一报还一报」了。大家都知道善良好，第二轮确实也出现更多善良的策略，但也有针对性占便宜的策略出现，压制这些过于善良的。

由此可见在一个动态的环境中，普通的一报还一报算是找到了一个善良与报复的平衡：

「善良」意味着合作更高分
「报复」意味着不让别人占便宜

囚徒困境实验问题

实验范围有限

重复囚徒困境实验样本还是少，且都大部分都是高知人群。且策略虽然进行无数次，但单轮中没有进化。现实中策略会进行无数多次，同时也会进化生成无数多轮。
那么假设策略可以变化，按照演化规律，会留下收益更高的策略。书中也做了实验，n轮过后，一报还一报依然是越来越好。最终会发育成所有人都是一报还一报。

那此时已知所有人都这策略，可以有新策略侵入占便宜吗？
书里也有说明，已有策略互相一直是合作加分。新来的如果想超过，只有利用背叛占便宜，但会受到报复，分数还是无法超出。最后可得一报还一报策略是集体稳定的。但注意前提是每轮进行无数次~ 即长期关系才会这样形成稳定互惠。

此外，在一个大家总是背叛的环境里，也是稳定的。因此如果有新策略侵入，只要尝试合作就吃亏，分数一定更低。但如果是多个一报还一报的策略同时侵入，他们在互相遇到时的得分可以覆盖与总是背叛相遇时多扣的分数，则这小挫人就可以逐渐侵入改变这个集体。这个实验结果很有启发，可以结合实际社会现实思考下。
那反过来，如果是多个总是背叛策略一起侵入一报还一报团队，是否能破坏稳定呢？书里测试了不行。因为总是背叛者互相合作的分数少于总是合作者间互相合作的分数。

现实心理问题

重复囚徒的博弈下，最终目的是自己得到更高的分数。但实际操作中，很容易走偏会在每次博弈时注意自己与对方的得分区别，在对方分领先时过多的背叛造成互伤。现实中因为主观心理因素，很难一直坚持一种策略不变。且现实中重复还是有限次数无法很确定。

对博弈方的标签化

策略可能在面对不同人时也不同，但对对方策略的预估会凭借一些标记去确定自身的。比如以往经历，或他自己主动的申明。不像实验里对博弈方都是未知不了解的。

比如发现你是善良+报复的一报还一报型则有利，对方也会按照你善良套路一直合作；
如果发现你是两报还一报的更善良型，则很容易被别人针对占你便宜，就不适合表现自己的策略；
而你是报复性更强的策略一报还两报，虽然主动宣称出去更有效促进合作，但具体执行在树立声望阶段时，很容易激怒对方，恶化关系；

现实中会有个各种问题和实验不同，但实验的结果依然有很好的参考价值。

《合作的进化》

囚徒困境重复囚徒困境最优解

策略的善良性

囚徒困境实验问题

实验范围有限

现实心理问题

对博弈方的标签化

CATALOG

FEATURED TAGS

FRIENDS

囚徒困境 重复囚徒困境 最优解

策略的善良性

囚徒困境实验问题

实验范围有限

现实心理问题

对博弈方的标签化

CATALOG

FEATURED TAGS

FRIENDS

囚徒困境重复囚徒困境最优解