《合作的进化》 -罗伯特·阿克塞尔罗德
看书的随手笔记,比较乱。
囚徒困境 重复囚徒困境 最优解
以囚徒困境为例,讨论什么策略最好。
首先确定下,不是什么博弈情况都属于囚徒困境的。
囚徒困境条件:双方合作>双方背叛,2x双方合作 > 单方背叛
策略没有绝对的好与坏,某个策略是否好取决于和你博弈的是什么策略。
单次or有限次数囚徒困境下,背叛是纸面上最优的选项。
但如果是无限次重复囚徒困境,则「一报还一报」策略最佳:即合作开局,后面每次模仿对方的行为合作or背叛。
如伴侣、兄弟亲人、最亲密的朋友等双方。在一个很长的相处时间下,即有无数次博弈,那一报还一报即为最优解,且以合作开局。
同理还有社会社交,面对各种需要经常交往的人(他们有不同策略)时,一报还一报策略自然也是最优解。
传统意义上的老好人,以德报怨,则不是一种好的策略,容易被策略上占便宜。
策略的善良性
书中实验的次优解也有很好的启发,表明总体上「善良」的策略,即「不首先背叛」的策略总体得到更高的分。 那更善良的策略是不是会更好呢?书里第一轮结束后的更宽容版本的「两报还一报」策略就是,它如果放在第一轮则会第一,但在已知第一轮结果的第二轮中,在有更多针对性占便宜的策略进入时,表现的就不如普通的「一报还一报」了。大家都知道善良好,第二轮确实也出现更多善良的策略,但也有针对性占便宜的策略出现,压制这些过于善良的。
由此可见在一个动态的环境中,普通的一报还一报算是找到了一个善良与报复的平衡:
- 「善良」意味着合作更高分
- 「报复」意味着不让别人占便宜
囚徒困境实验问题
实验范围有限
重复囚徒困境实验样本还是少,且都大部分都是高知人群。且策略虽然进行无数次,但单轮中没有进化。现实中策略会进行无数多次,同时也会进化生成无数多轮。
那么假设策略可以变化,按照演化规律,会留下收益更高的策略。书中也做了实验,n轮过后,一报还一报依然是越来越好。最终会发育成所有人都是一报还一报。
那此时已知所有人都这策略,可以有新策略侵入占便宜吗?
书里也有说明,已有策略互相一直是合作加分。新来的如果想超过,只有利用背叛占便宜,但会受到报复,分数还是无法超出。最后可得一报还一报策略是集体稳定的。但注意前提是每轮进行无数次~ 即长期关系才会这样形成稳定互惠。
此外,在一个大家总是背叛的环境里,也是稳定的。因此如果有新策略侵入,只要尝试合作就吃亏,分数一定更低。但如果是多个一报还一报的策略同时侵入,他们在互相遇到时的得分可以覆盖与总是背叛相遇时多扣的分数,则这小挫人就可以逐渐侵入改变这个集体。这个实验结果很有启发,可以结合实际社会现实思考下。
那反过来,如果是多个总是背叛策略一起侵入一报还一报团队,是否能破坏稳定呢?书里测试了不行。因为总是背叛者互相合作的分数少于总是合作者间互相合作的分数。
现实心理问题
重复囚徒的博弈下,最终目的是自己得到更高的分数。但实际操作中,很容易走偏会在每次博弈时注意自己与对方的得分区别,在对方分领先时过多的背叛造成互伤。现实中因为主观心理因素,很难一直坚持一种策略不变。且现实中重复还是有限次数无法很确定。
对博弈方的标签化
策略可能在面对不同人时也不同,但对对方策略的预估会凭借一些标记去确定自身的。比如以往经历,或他自己主动的申明。不像实验里对博弈方都是未知不了解的。
- 比如发现你是善良+报复的一报还一报型则有利,对方也会按照你善良套路一直合作;
- 如果发现你是两报还一报的更善良型,则很容易被别人针对占你便宜,就不适合表现自己的策略;
- 而你是报复性更强的策略一报还两报,虽然主动宣称出去更有效促进合作,但具体执行在树立声望阶段时,很容易激怒对方,恶化关系;
现实中会有个各种问题和实验不同,但实验的结果依然有很好的参考价值。