リスク支配リスク支配 及び 利得支配 らは ゲーム理論におけるナッシュ均衡の2つの関連した精緻化であり、ジョン・ハーサニとラインハルト・ゼルテンにより定義された。利得支配的なナッシュ均衡とは同じゲームのナッシュ均衡に対してパレート効率性を満たすものである1。プレイヤーが均衡選択の場面に直面した際に全てのプレイヤーは、各プレイヤーに他のナッシュ均衡と同等かそれ以上の利得を与える利得支配的なナッシュ均衡を選択することに同意すると予想される。他方で、リスク支配的なナッシュ均衡とは他プレイヤーの戦略変更に関して最大の安全性を保証するものである。この均衡はプレイヤーが他のプレイヤーの行動に関して伴う不確実性が増すほど、高い確率で選択されうる。 下の利得行列 は二つの 純粋戦略ナッシュ均衡を持つ単純な2×2ゲームを表している。戦略のペア (Hunt, Hunt)が利得支配的な均衡である。なぜなら両プレイヤーにとって、他の純粋戦略ナッシュ均衡となる戦略のペア(Gather, Gather)より高い利得を得られるからである。一方, (Gather, Gather)は(Hunt, Hunt)をリスク支配する。なぜなら、他プレイヤーの行動に関して不確実性が存在する場合、Gather戦略がより高い利得をもたらすからである。このゲームはスタグハントゲームと呼ばれ、ゲーム理論におけるジレンマの一つとして有名である。このゲームの肝は全プレイヤーが協調的な戦略(Hunt戦略)をとった場合は全員に高い利得をもたらすが、他のプレイヤーが協調するか疑念がある場合、Gather戦略が利得確保の点からみて有効である(そしてこの戦略は他者の戦略に左右されない)ことにある。加えて、単独でGather戦略を実行することは、複数人によるGather戦略より選好される。囚人のジレンマと同様に、これは信頼できるコミットメントを欠いた共同行動が失敗に終わる理由の一つを示唆している。
厳密な定義下の利得行列で表されたゲームが協調ゲームであるとき、(行プレイヤーの利得に関して) 、(列プレイヤーの利得に関して)の二つの不等式条件が成り立つ。戦略のペア (H,H) と (G,G) の二つのみが純粋戦略ナッシュ均衡であることが分かる. 加えて一つの 混合戦略ナッシュ均衡が存在し、それは行プレイヤーがの確率で戦略 H、1−p の確率で戦略 G、列プレイヤーが)の確率で戦略 H、1−q の確率で戦略 G をプレイすることである。 戦略の組み合わせ (H,H) はかつ、またはが成り立っているとき (G,G) を利得支配する。戦略の組み合わせ (G,G) は、ある戦略の組み合わせから逸脱したときの各プレイヤーの損失の積が、の場合のときが最も高いなら (H,H) をリスク支配 する(Harsanyi & Selten 1988, Lemma 5.4.4)。言い換えると, 不等式条件が成り立つことである. この不等式条件が強い場合(不等号記号が >)、(G,G) は (H,H) を強くリスク支配するという2。 等となっている対称ゲームの場合、不等式条件は以下のようなシンプルな解釈を与えてくれる。プレイヤーは他のプレイヤーがどの戦略を選んで確率を付与するか不確かであると仮定する。すると、各プレイヤーが戦略 H と G にそれぞれ確率 1/2 を与えるとすると、戦略 G をプレイすることによる期待利得が戦略 H のそれを上回るとき(または単純に )、(G,G) は (H,H)をリスク支配する。 リスク支配的な均衡を導く他の方法は、全ての均衡の危険因子を計算してそれが最小となる均衡を見つけることである。 前述の2×2ゲームの危険因子を計算してみよう。プレイヤーが戦略 H をプレイするときの期待利得は である(p は他プレイヤーが戦略 H をとる確率)。 戦略 G の場合のと比較して、 二つの期待利得を等号で結びつける p の値が均衡 (H,H) の危険因子である。当然、はの危険因子である。p を他のプレイヤーが戦略 G をとる確率とすることで、戦略 をプレイすることによる危険因子を同様に計算できる。 は、自分がある相手の戦略を真似することで得る利得が、他の戦略をとったときより高くしたい際に、その戦略をとると最低限保証されなくてはならない相手がその戦略をとる確率である。
均衡選択数々の進化ゲーム理論的アプローチはプレイヤーの数が多いとき、プレイヤーらは利得支配的な均衡をプレイすることに失敗し、被利得支配、被リスク支配的な均衡に陥ってしまうことを示唆している。ある二つの進化ゲームモデルでは、リスク支配的な均衡がより起こりやすいとされた。そのうちレプリケータダイナミクスによるモデルは、個体群は利得支配的な均衡よりリスク支配的な均衡を選ぶことを予測している。もう一方の、 戦略修正ダイナミクス と 突然変異を組み込んだ最適反応動学によるモデルはリスク支配的な均衡が唯一の確率的安定均衡 であることを予測している。両モデルでは二人ゲームを要素数 N の個体群に複数回プレイさせている。そこではプレイヤーの相手は他の要素数 N−1 の個体群の中からランダムに決まる(どのプレイヤーが相手になるかの確率は無差別)。全てのプレイヤーに戦略 G またはH が与えられてゲームを開始し、相手とその戦略でもって競争する。レプリケータダイナミクスでは、個体群によるゲームは、集団の一部は過去にとった戦略の成功如何によって戦略を変更することを仮定し世代間で繰り返し行われる。 最適反応動学では、プレイヤーは次世代における期待利得を高くするために戦略をアップデートする。Kandori, Mailath & Rob (1993) と Young (1993) の研究によればプレイヤーが突然変異して戦略を変更することが可能で4、 突然変異する確率が漸近的にに近づいていくなら、例え利得支配されていてもリスク支配均衡に到達する確率が 1 に近づいていく3。 注釈
参考文献
|
Portal di Ensiklopedia Dunia