博弈论中,旅行者困境是一种非零和博弈,博弈双方都为了让自己收益最大化,而不考虑对方收益。
该博弈是1994年由印度經濟學家考希克·巴苏教授(Kaushik Basu)提出,博弈情形如下[1][2]:
- 航空公司丢失了两位互相不认识乘客的旅行包。两个旅行包正好都是一样的,并且里面有相同价值的古董,两位乘客都向航空公司索赔1000美元。为了评估出古董的真实价值,公司经理将两位乘客分开以避免两人合谋,分别让他们写下古董的价值,其金额必須是整數,而且要不低于300美元,并且不高于1000美元。同时还告诉两人:如果两个数字是一样的,那么会被认为是其真实价值,他们能获得相应金额的赔偿。如果数字不一样,较小的会被认为是真实价值,而两人在获得这个金额的同时有相应的奖赏/惩罚:写下较小金额的会获得10美元额外的奖励,较大的会有10美元的惩罚。现在问题在于:两位旅行者应该用什么策略来决定他们应该写下的金额?
如果两位旅行者的收益变成两个整数的选择,比如528美元和743美元,那么旅行者困境在数学上就等同囚徒困境,所以可以被看作是囚徒困境的延伸。该困境还和猜均值的2/3博弈相似,为了得到纳什均衡,两个博弈都涉及到了迭代去除占优策略,并且实验结果与博弈论的预测都严重不相符合。
博弈论认为,如果两个人是理性人,那么他们会都写300美元,这个结果是该博弈的纳什均衡。然而,实验中大多数测试者都会选择1000美元,或者接近1000美元。他们也清楚自己并没有认真思考这个情况,选择了非理性的结果。并且,旅行者们会因为在博弈中严重偏离纳什均衡而获得比理性行为高很多的收益。该实验既没有证明大多数人都是完全理性人,也没有证明他们如果选择理性行为就能获得更多收益。这个困境让人们对博弈论产生了怀疑,与此同时,有人建议需要有一种新的解释,来帮助理解如何来完全理性的作出非理性选择。
收益矩阵
一个典型的收益矩阵如下(仅考虑整数):
典型的旅行者困境收益矩阵
|
1000
|
999
|
998
|
997
|
⋯
|
301
|
300
|
1000
|
1000, 1000
|
989, 1009
|
988, 1008
|
987, 1007
|
⋯
|
291, 311
|
290, 310
|
999
|
1009, 989
|
999, 999
|
988, 1008
|
987, 1007
|
⋯
|
291, 311
|
290, 310
|
998
|
1008, 988
|
1008, 988
|
998, 998
|
987, 1007
|
⋯
|
291, 311
|
290, 310
|
997
|
1007, 987
|
1007, 987
|
1007, 987
|
997, 997
|
⋯
|
291, 311
|
290, 310
|
⋮
|
⋮
|
⋮
|
⋮
|
⋮
|
⋱
|
⋮
|
⋮
|
301
|
311, 291
|
311, 291
|
311, 291
|
311, 291
|
⋯
|
301, 301
|
290, 310
|
300
|
310, 290
|
310, 290
|
310, 290
|
310, 290
|
⋯
|
310, 290
|
300, 300
|
参考文献
|