MASのモデル

囚人のジレンマ選手権モデル

囚人のジレンマ選手権モデルとは

 人と人が協力するのはとても大事ですが、時に非常に難しい問題です。協力したほうがみんなにとっては良いのだけれど、協力しなければ自分だけが得することができるような状況では、とくにそうです。

 そのような難しい状況を表したのが「囚人のジレンマ」です。ゲーム理論における代表的な研究テーマで1950年に考案されました。そういうジレンマに直面したとき、どういうふうにあなたが振る舞えば、二人が協力できるようになるのでしょう。

 囚人のジレンマ選手権モデルは、このジレンマ状況での協力関係の構築という課題について考察するために考案されたモデルです。ロバート・アクセルロッドというアメリカの政治学者によって1980年に発表された研究に基づいています。協力関係を築くための意外なコツを意外な方法で教えてくれる興味深いモデルです。

 

モデルのルール

 まず囚人のジレンマについて説明します。(図1を参照してください)。囚人のジレンマは2人のあいだで生じる状況を表しています。あなたは協力と非協力という2つの選択肢をもっています。相手も同じです。それぞれが自由に選択します。自分と相手の選択の組み合わせにより、結果が決まります。ここでは、結果により自分と相手の得点が決まるものとします。
例えば、自分が協力し相手も協力を選べば、両方が3点を獲得します。自分が協力しても相手が非協力なら、自分は0点で相手は5点です。双方が非協力なら、両方が1点を獲得します。

 

 上記のような囚人のジレンマの状況で、できるだけたくさんの点を獲得するためにはどう振る舞えば良いでしょう。どう振る舞うかについてのルールを戦略と呼びます。いろんな戦略が考えられますね。例えば、相手が協力してくれる間は協力するけれど、相手が非協力ならもう2度と協力しないとか。ここでは、囚人のジレンマ選手権で勝つために考えられた戦略を集めて、実際に対戦してもらってその結果を見てみることにします。

 戦略には、それぞれ通称や考案した人の名前が付けられています。例えば、上で紹介した戦略は経済学者のミルトン・フリードマンによって提案され、フリードマンと命名されています。それぞれの戦略の内容については、下のほうで説明してあるので、参考にしてください。 さて選手権では、どんなことが起こったでしょうか。

※本モデルは、オリジナルをそのまま再現したものではなく、趣旨をふまえてアレンジされています。

 

 


モデルの実行にはartisoc または artisoc player(無償)が必要になります。

 

モデルの見どころ

 アクセルロッドが2回にわたり開催した選手権では、しっぺ返し戦略(応報戦略、Tit For Tat)が連覇しました。まずは協力し、以降は相手が前回に選んだ選択を模倣し続けるという戦略です。つまり、相手が協力すれば協力し、非協力なら非協力を選びます。しっぺ返しが有力であることは以前から知られており、選手権に参加した研究者たちもそれは知っていました。にも関わらず、しっぺ返し戦略が優勝したのでした。

 アクセルロッドは、選手権で良い成績をおさめた戦略を検討して、そこに共通の性質があると主張しています。好成績をおさめた戦略は、全て自分からは先には裏切らない(上品さ、niceness)という性質をもっていました。また、相手の裏切りを許す(寛容さ、forgiveness)という性質も、高い点を得るために重要であると指摘しています。つまり、相手を出し抜くことが高得点につながり、裏切りへの誘惑が存在するようなジレンマ状況でも、あえて上品さを保ち、寛容さを発揮することが、協調関係をうみだし、意外にも高得点につながると主張したのです。

 参加した戦略すべてで総当たり戦をおこなう選手権とは別に、世代を経るごとに好成績をおさめた戦略が多くなっていく(逆に、得点の低い戦略は少なくなっていく)という進化ゲームのかたちで、最終的にどういう戦略が優勢になるかをモデルで試しています。この生存競争の状況においても、しっぺ返し戦略が優勢になるという結果が導かれています。どのような戦略が最終的に優勢になるのかは、対戦の組み合わせにより異なる結果が生じますが、上品さが重要なことは確かなようです。

 ジレンマ状況において、しっぺ返し戦略という古くから知られている単純なふるまいが有効であったり、裏切ったほうが有利な状況においても、上品さや寛容さが重要であったりするという結果は、多くの人を驚かせると同時に、大きな論争を生みました。囚人のジレンマにおけるある戦略の得点は、どんな戦略が相手であるかによって変わるため、選手権にどんな戦略が参加するのかによって、結果は左右されることになります。アクセルロッドの導いた結果は決して一般的ではなく状況設定により結果は変わると批判される一方で(このことはアクセルロッド自身も認めています)、選手権で明らかにされたこと(ある条件のもとではジレンマ状況でも協調関係を築くことが可能であること)は、これまでの数理的研究ですでに知られていたことに過ぎないとも批判されています。

 

選手権に参加している戦略たち

・しっぺ返し戦略[Tit-For-Tat戦略(TFT)](上品/寛容)
初回は協力を選び、相手が協力すれば協力を次回選び、相手が非協力なら非協力を次回選ぶ。
・堪忍袋戦略[Tit-For-Two-Tats戦略(TTT)](上品/寛容)
初回は協力を選び、相手が2回連続で非協力を選んだとき、非協力を次回選ぶ。
・逆しっぺ返し戦略[Reverse Tit For Tat戦略(RTF)](下品/寛容)
初回は非協力を選び、相手が協力すれば協力を次回選び、相手が非協力なら非協力を次回選ぶ。
・ニデッガ戦略※[Nydegger戦略(NYD)](上品/寛容)
 最初の3回はしっぺ返し戦略をとる。それ以降は直前3回の相手と自分の手の組み合わせのパターンにより協力を選ぶか非協力を選ぶかを決める。3回とも相手も自分も非協力を選んでいたら協力を選ぶとか、3回前に自分が非協力を選んだ以外は相手も自分も協力を選んでいたら非協力を選ぶ等のルールが、決められている。対人実験で用いるために作られたもので、基本的に協力的だが間抜けではないようにデザインされている。
・グロフマン戦略[Grofman戦略(GRO)](上品/寛容)
 基本的には協力を選ぶ。相手と自分が異なる選択肢を選んだ場合は、7分の2の確率で協力を次回選ぶ。相手に出し抜かれたときや相手を出し抜いているときは非協力を選ぶ傾向をもつが、相互協力が成立しているときは協力を続けるし、ともに非協力のときも協力を選ぶことになる。
・シュービック戦略[Shubik戦略(SHU)](上品/寛容)
 基本的には協力を選び、相手が非協力を選んだら自分も非協力を次回選ぶ。非協力を選ぶ回数は、最初は1回だけだが、相互協力が崩れるごとに、非協力を選ぶ回数を1回ずつ増やしていく。
・シュタイン戦略※[Stein戦略(STN)](上品/寛容)
 最初の4 回は協力し、あとはしっぺ返し戦略をとる。
・フリードマン戦略[Friedman戦略(FDM)](上品/不寛容)
 初回は協力を選び、相手が1回でも非協力を選べば、以後は最後まで非協力を選ぶ。
・デービス戦略[Davis戦略(DVS)](上品/不寛容)
 最初の10回は協力を選ぶ。そのうち1回でも相手が非協力を選べば、以降は非協力を選ぶ。そうでなければ協力する。
・グラスカンプ戦略※[Graaskamp戦略(GRS)](下品/不寛容)
 最初の50回はしっぺ返し戦略をとる。以降5〜15回毎に1回非協力を選ぶ。何回毎に非協力を選ぶかは無作為に決める。
・ダウニング戦略※[Downing戦略(DOW)](下品/寛容)
 相手の選択は直前回の自分の選択によって確率的に決まっていると仮定し、自分が協力を選んだ次の回に相手が協力を選ぶ推定確率と自分が非協力を選んだ次の回に相手が協力を選択する推定確率をもつ。2つの推定確率の初期値は50%であるが、対戦をしながらその値を更新していく。長期的にみて有利と推定される選択肢を選ぶ。
・ダウニング戦略改※[Downing-Revised戦略(DWR)](上品/寛容)
 ダウニング戦略と同じであるが、2つの推定確率の初期値が異なる。自分が協力を選んだ次の回に相手が協力を選ぶ推定確率を100%とし、自分が非協力を選んだ次回に相手が協力を選択する推定確率を0%とする。
・フェルド戦略[Feld戦略(FLD)](下品/寛容)
 最初はしっぺ返し戦略をとる。相手が協力を選んだときに協力を選ぶ確率を徐々に低下させていく。対戦終了時には50%になるようにする。相手が非協力を選んだ次の回は必ず非協力を選ぶ。
・ヨッス戦略[Joss戦略(JOS)](下品/寛容)
 初回は協力を選び、相手が協力すれば90%の確率で協力(10%の確率で非協力)を次回選び、相手が非協力を選んだ次の回は必ず非協力を選ぶ。
・テュロック戦略[Tullock戦略(TLK)](下品/寛容)
 最初の10回は協力する。以後は、その間に相手が協力を選んだ頻度より10%低い確率で協力を選ぶ。
・でたらめ戦略[Random戦略(RDM)](下品/不寛容)
協力するか、協力しないかを毎回無作為に決める。
・悪人戦略[All-D戦略(ALD)](下品/不寛容)
 常に非協力を選ぶ。
・善人戦略[All-C戦略(ALC)](上品/寛容)
 常に協力を選ぶ。

 

※本モデルの戦略ルールは、オリジナルの論文のものをそのまま再現したものではなく、趣旨をふまえてアレンジされています。対戦の終了時に裏切って得点を稼ごうとするルールや相手の戦略を推測して、対応しようとするルールは省略しています。

※※ルールの説明において、 上品=自分から裏切る可能性のないもの/下品=自分から裏切る可能性のあるもの 寛容=相手の裏切りから相互協力に戻す仕組みを持っているもの 不寛容=相手の裏切りから相互協力に戻す仕組みを持っていないもの

 

もっと読むなら

ロバート・アクセルロッド[松田裕之訳](1998)『つきあい方の科学:バクテリアから国際関係まで』ミネルヴァ書房 (Robert AXELROD, 1984, The Evolution of Cooperation, Basic Books)

Robert AXELROD, 1980, “Effective Choice in the Prisoner’s Dilemma,” Journal of Conflict Resolution, Vol.24, No.1, pp.3-25.

Robert AXELROD, 1980, “More Effective Choice in the Prisoner’s Dilemma,” Journal of Conflict Resolution, Vol.24, No.3, pp.379-403.

【キーワード】:囚人のジレンマ・コンピュータトーナメント・生存競争・マルチエージェント・シミュレーション・モデル

 

光辻克馬(東京大学)2016年9月16日

 

囚人のジレンマ選手権モデル 基本情報

【モデルタイトル】:囚人のジレンマ選手権モデル(Prisoner’s Dilemma Model)
【モデル考案者】:Robert Axelrod
【モデル発表年】:1980
【artisocサンプルモデル作成】:構造計画研究所、光辻克馬
【artisocサンプルモデル作成日】:2016年9月16日