从所给条件,我们可以判断出该博弈为一个完全信息的静态重复博弈。(这肯定是个反复进行的重复博弈,因为单次的囚徒困境只会导致双方选择纳什均衡,即均不合作)
题设条件告诉我们彼此信息不透明也不能互相了解,我们将其理解为双方在每次决策之前是不能交流的,但是双方对于在上一轮次决策之后的得益是知道的,这就是完全信息,双方可以根据自己的选择和得益分析对方的选择及想法。
如果我们排除完全信息的假设,这道题应该是无解的。
既然双方知道博弈会进行多次,所以会觉得进行具有风险性的合作决策也无妨,当然这与博弈的次数也有关系。
当一方选择合作时,如果裁判告诉他这轮的得益是最好的得益,那么他便知道对方也选择了合作,如果裁判告诉他这轮他得到了比双方不合作时更差的收益,则他会明白对方选择的是不合作。
这个原理明白之后,我们就该讨论到底双方该采取怎样的策略原则去进行他们的策略选择从而使双方合作的机会增加。
答案是先人给出的,经过多年的计算机测试以及各种研究发现,
最优的策略叫做tit for tat,一报还一报策略。
即决策方在第一轮选择合作,其后每轮决策与对手的上轮决策相同,对手合作,我下轮就合作,对手背叛我下轮就背叛。
这样的报复性决策其实目的是为了警告对手,让对手趋于多选择合作。
说的比较粗略,例子也来不及举了,要睡觉了。
推荐你看冯诺依曼的《囚徒的困境》一书,其中对该问题有十分详细的叙述。