アートハーバー　東京: ナッシュ均衡

日本人がこのような状況下で、おとなしいのは？

各人が偽りの「逃げ口上」を持っているのだろう・・・

おそらく、それこそが、象徴天皇に集約されるのでは？

後ろ向きの「逃げた天皇に未練はないが・・・」

実は、天皇のもとで、奴隷になった方が楽・・・

救いようがない・・・　逃げ口上・・・

ゲーム理論のナッシュ均衡？

だから、お伽の国？

まるで、現実とかけ離れている日本・・・

どう考えても、異常、まるで、日本国は精神病患者のようだ・・・

原因は？　コネクションマシンの挙句の果て？

ニッポン株式会社の本質は？

赤グロ団子型コネクションマシン

赤グロ団子型コネクションマシンがさらに性質が悪いのは？

バックワード型　＝　後ろ向き　＝　皇国史観

回復不能、生命維持装置に繋ぐんですか？

三権の長へ・・・　その他、ニッポン株式会社の社主へ・・・

社主とは？　

法人の長である・・・　国

家長である・・・　家

国家が団子になって、破たんした、ご臨終です・・・

証拠は？

国（社）の財政　１２００兆円の赤字

家の財政　家計は国の財政に連動している

家計は経済の最小単位である、国の財政は大赤字・・・　税金で穴埋めしなくてはならない

お宅の金融資産の状況は？

住宅ローン赤字です・・・

うちは、不渡りです

うちは、ゼロです、まだ、まし・・・

---Wiki

コネクションマシン（Connection Machine）は、スーパーコンピュータシリーズの名称である。1980年代初頭、マサチューセッツ工科大学の Danny Hillis によるノイマン型コンピュータの代替となるアーキテクチャの研究から発展して製品化された。最初の CM-1 は、MITで考案されたもので、数千の単純なプロセッサノード（それぞれにRAMを持つ）をハイパーキューブ型に接続した超並列マシンであり、各CPUノードにはRAMを持ちSIMD方式で動作した。人工知能や記号処理に使うことを目的としていたが、計算科学分野で成功した。

Hillis と Sheryl Handler はシンキングマシンズ社をマサチューセッツ州 Waltham に設立し（1983年）、CM-1 を製造し、後に最大 65,536プロセッサ構成の CM-2を開発した。各プロセッサは非常に単純な 1ビットプロセッサである。後に数値演算コプロセッサ（Weitek 3132）を追加できるように改良され、32ノードがひとつの数値演算コプロセッサを共有する構成となっていた。CM-2 の小規模版 CM-2a（最大 4096プロセッサか 8192プロセッサ）や、高速版CM-200 も後にリリースされた。

---Wiki

ナッシュ均衡（ナッシュきんこう、Nash equilibrium）は、ゲーム理論における非協力ゲームの解の一種であり、いくつかの解の概念の中で最も基本的な概念である。数学者のジョン・フォーブス・ナッシュにちなんで名付けられた。

ナッシュ均衡は、他のプレーヤーの戦略を所与とした場合、どのプレーヤーも自分の戦略を変更することによってより高い利得を得ることができない戦略の組み合わせである。ナッシュ均衡の下では、どのプレーヤーも戦略を変更する誘因を持たない。

ナッシュ均衡は、必ずしもパレート効率的ではない。その良い例が、囚人のジレンマである。

定義 [編集]

形式的な定義は次の通りである。標準型ゲーム G = (N, S, u) （N はプレーヤーの集合、 $S = \prod_{i \in N} S_i$ は戦略の組の集合、 $u = (u_i)_{i \in N} \; (u_i : S \rightarrow \mathbb{R})$ は効用の組）において、戦略の組 $s^* \in S$ がナッシュ均衡であるとは、全てのプレーヤー $i \in N$ と、全ての $s_i \in S_i$ に対して、

$u_i(s^*) \geq u_i(s_i, s^*_{-i})$

を満たすことである。

ただし、s_-i は、i 以外のプレーヤーの戦略の組をさす。

純粋戦略ゲームとナッシュ均衡 [編集]

支配戦略によるナッシュ均衡 [編集]

純粋戦略ゲーム (Pure strategy game) とは、参加者 (プレーヤー) が必ずどれかの戦略を選ぶゲームである。例えば、以下の表は、二人のプレーヤー P_a と P_b がそれぞれ戦略 (A₁ または A₂) と (B₁ または B₂) を選べるときの、それぞれの利得を示す。並んだ数字の左側は P_a の利得、右側は P_b の利得である。

P_a/P_b	B₁	B₂
A₁	5, 2	2, 4
A₂	4, 6	1, 6

まず P_a の利得に注目すると、P_b がどちらの戦略を選ぼうが、P_a は A₁ 戦略を選んだ方がより大きな利得を得ることができる。このような関係が成り立つとき、A₁ は強支配戦略であると表現する。支配するとは、ある戦略を選ぶことが他方の戦略を選ぶより有利であるという意味である。

次に P_b の利得に注目すると、P_a がどちらに戦略を選んでも、B₂ 戦略を選んだ方が B₁ 戦略のとき以上の利得を得られる。P_a が A₂ 戦略を選んだ場合には B₁ と B₂は同等になるので、このような関係のとき B₂ は弱支配戦略であるという。

結果として、P_a にとっての最適戦略は A₁、P_b にとっての最適戦略は B₂ となり、両者ともここから戦略を変更しても利得は減る。この組み合わせ (A₁, B₂) がナッシュ均衡となる。

P_a、P_b が (A₁, B₂) という戦略をとった場合、P_aは戦略を変更して A₂ をとれば利得が 2 から 1 へ減少してしまうため、戦略を変更する誘因を持たない。同様に P_b も、戦略を変更して B₁ をとれば利得が 4 から 2 へ減少してしまうため、戦略を変更する誘因を持たない。

なお、P_a、P_b が (A₂, B₁) という戦略をとった場合の利得は (4, 6) となり、ナッシュ均衡における利得と比べて P_a、P_b ともにより大きな利得を得ることができる。この場合、P_a がより大きな 5 の利得を得るため A₁ に戦略を変更する誘因を持つため、ナッシュ均衡ではない。すなわち、このゲームは囚人のジレンマゲームである。また、(A₁, B₂) から (A₂, B₁) への戦略変更は、パレート改善であり、ナッシュ均衡 (A₁, B₂) はパレート効率的ではない。

逐次消去によるナッシュ均衡 [編集]

相手の戦略によってどの戦略が最も大きな利得を出すかが変化する場合、他の戦略すべてを支配できる戦略が存在しない場合がある。そのような場合、他から支配されている戦略を消去していくことで残った戦略の組み合わせをナッシュ均衡と定義できる。支配戦略によってナッシュ均衡が定義できる場合、それは消去によって定義されたものと一致する。

P_a/P_b	B₁	B₂	B₃
A₁	5, 2	2, 4	4, 0
A₂	4, 6	3, 6	2, 5
A₃	3, 3	1, 2	7, 2

↓B₃ は B₂ に支配されているため、B₃ を消去。

P_a/P_b	B₁	B₂
A₁	5, 2	2, 4
A₂	4, 6	3, 6
A₃	3, 3	1, 2

↓A₃ は A₂ に支配されているため A₃ を消去。

P_a/P_b	B₁	B₂
A₁	5, 2	2, 4
A₂	4, 6	3, 6

↓B₁ は B₂ に支配されているため B₁ を消去。

P_a/P_b	B₂
A₁	2, 4
A₂	3, 6

ナッシュ均衡は (A₂, B₂)。

混合戦略ゲームにおけるナッシュ均衡 [編集]

混合戦略ゲームとは、参加者が各行動を選ぶ確率を戦略とするような非協力ゲームのことである。この場合、ナッシュ均衡は各参加者の行動確率の組として表される。有限ゲーム (プレーヤーの数と各プレーヤーの戦略の数が有限のゲーム) は少なくとも 1 つのナッシュ均衡を (混合戦略ゲームで考えれば) 持つことが証明されている (ナッシュの定理。ナッシュは、この証明を角谷の不動点定理を応用することによって得た）。

P_a/P_b	B₁ 確率 q	B₂ 確率 (1 - q)
A₁ 確率 p	1, 2	0, 0
A₂ 確率 (1 - p)	0, 0	2, 1

この表のゲームの場合は P_a の得る利得の期待値は：

1・pq + 2・(1 - p)(1 - q) = 3pq - 2p - 2q + 2 = (3q - 2)p + 2(1 - q)

である。これを p の関数だと考えると：

q > 2/3 なら：単調増加の直線グラフなので、期待値の最大値は p = 1 のとき q
q < 2/3 なら：単調減少の直線グラフなので、期待値の最大値は p = 0 のとき 2 - 2q
q = 2/3 なら：期待値は一定で 2/3

となる。

P_b の得る利得の期待値の最大値も、p によって同様に決定される。この二つのグラフの交点がナッシュ均衡となる。このゲームの場合は (2/3, 1/3) がそうである。

囚人のジレンマ [編集]

問題 [編集]

共同で犯罪を行った（と思われる）2人が捕まった。警官はこの2人の囚人に自白させる為に、彼らの牢屋を順に訪れ、自白した場合などの司法取引について以下の条件を伝えた。

もし、おまえらが2人とも黙秘したら、2人とも懲役2年だ。
だが、共犯者が黙秘していても、おまえだけが自白したらおまえだけは刑を1年に減刑してやろう。ただし、共犯者の方は懲役15年だ。
逆に共犯者だけが自白し、おまえが黙秘したら共犯者は刑が1年になる。ただし、おまえの方は懲役15年だ。
ただし、おまえらが2人とも自白したら、2人とも懲役10年だ。

なお、2人は双方に同じ条件が提示されている事を知っているものとする。また、彼らは2人は別室に隔離されていて、2人の間で強制力のある合意を形成できないとする。

このとき、囚人は共犯者と協調して黙秘すべきか、それとも共犯者を裏切って自白すべきか、というのが問題である。

2人の囚人の名前をA、Bとして表にまとめると、以下のようになる。表内の左側が囚人Aの懲役、右側が囚人Bの懲役を表す。たとえば右上の欄は、Aが懲役15年、Bが1年である事を意味する。

	囚人B 協調	囚人B 裏切り
囚人A 協調	（2年、2年）	（15年、1年）
囚人A 裏切り	（1年、15年）	（10年、10年）

解説 [編集]

囚人2人にとって、互いに裏切りあって10年の刑を受けるよりは互いに協調しあって2年の刑を受ける方が得である。しかし囚人達が自分の利益のみを追求している限り、互いに裏切りあうという結末を迎える。なぜなら囚人Aは以下のように考えるからだ。

囚人Bが「協調」を選んだとする。このとき、もし自分 (=A) がBと協調すれば自分は懲役2年だが、逆に自分がBを裏切れば懲役は1年ですむ。だからBを裏切ったほうが得だ。
囚人Bが「裏切り」を選んだとする。このとき、もし自分がBと協調すれば自分は懲役15年だが、逆に自分がBを裏切れば懲役は10年ですむ。だからBをやはり裏切ったほうが得だ。

以上の議論により、Bが自分との協調を選んだかどうかによらずBを裏切るのが最適な戦略（支配戦略）であるので、AはBを裏切る。囚人Bも同様の考えにより、囚人Aを裏切る事になる。

よってA、Bは（互いに裏切りあうよりは）互いに協調しあったほうが得であるにもかかわらず、互いに裏切りあって10年の刑を受ける事になる。合理的な各個人が自分にとって「最適な選択」（裏切り）をすることと、全体として「最適な選択」をすることが同時に達成できないことがジレンマと言われる所以である。

なお、この場合のパレート効率的な組合せは、(2,2)、(15,1)、(1,15)の3点であり、(10,10) はナッシュ均衡ではあってもパレート効率的ではない。

繰り返し型の囚人のジレンマ [編集]

上述したように、2人プレーヤーの囚人のジレンマのゲームを1回しかしない場合は、両者が「裏切り」を選択する。では囚人のジレンマのゲームを繰り返し行った場合はどうなるか。これは、囚人達がゲームの繰り返し回数を知っているかどうかによって変わる。

ゲームの繰り返し回数を囚人達が双方とも知っていた場合は、全ての回で囚人がともに「裏切り」を選択する事が分かっている。これは状況を最終回から順に帰納法的に考えてみれば分かる（後退帰納法）。

最終回のゲームの後にもうゲームをやらないので、最終回のゲームの戦略が他のゲームの戦略に影響する事はない。よって最終回のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
最終回のゲームでは双方とも必ず「裏切り」を選択するのだから、最終回の一回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようが最終回のゲームには影響しない。よって最終回の一回前のゲームにもやはり駆け引き的要素は存在せず、このゲームでも囚人達はともに「裏切り」を選択する。
以下同様に考える事で、全てのゲームで囚人がともに「裏切り」を選択する事が分かる。

次にゲームの繰り返し回数をいずれの囚人も知らない場合を考える。1980年にロバート・アクセルロッドは、繰り返し型の囚人のジレンマで利得の多くなる戦略を調べるため、様々な分野の研究者から戦略を集めて実験を行った。実験には14種類の戦略が集まり、アクセルロッドはこれらを総当りで対戦させた。その結果、全対戦の利得の合計が最も高かったのは、「しっぺ返し戦略（tit for tat）」であった。「しっぺ返し戦略」とは、最初は「協調」し、以降は、前回相手の出した手をそのまま出す戦略である。

アクセルロッドは、続いて2回目の実験を行った。この実験には、62種類の戦略が集まった。前回の勝者が「しっぺ返し戦略」であることは伝えられていたため、集まった戦略はこれよりも高い利得を得ようと工夫されたものだった。それにもかかわらず、最大の利得を得たのは、またしても「しっぺ返し戦略」であった。

なお、実験の結果は、実験の具体的方法や他の戦略の種類、数にも影響されるため、「しっぺ返し戦略」が常に最強とは限らない。しかし、ある条件下では「しっぺ返し」戦略が「常に裏切り」戦略よりも有効であることを以下のように示すことができる。

例えば、2人のプレーヤーPaとPbが「協調」か「裏切り」かの戦略を選べるときの、それぞれの利得を示す。並んだ数字の左側はPaの利得、右側はPbの利得である。

Pa/Pb	協調	裏切り
協調	2, 2	0, 3
裏切り	3, 0	1, 1

ゲームが1回きりの場合、前に述べたとおり、ナッシュ均衡は（裏切り, 裏切り）のみである。しかし、ゲームを複数回行う場合、ゲームが次回も続く確率をpとすると、利得は以下のようになる。

Pa/Pb	しっぺ返し	常に裏切り
しっぺ返し	2/(1-p), 2/(1-p)	-1+1/(1-p), 2+1/(1-p)
常に裏切り	2+1/(1-p), -1+1/(1-p)	1/(1-p), 1/(1-p)

この場合、p>0.5において2+1/(1-p)<2/(1-p)となる。すなわち、相手が「しっぺ返し」戦略をとっている時に自分が「常に裏切り」戦略を取る利得がなくなり、（しっぺ返し,しっぺ返し）がナッシュ均衡となる。

繰り返し型の囚人のジレンマゲーム（ノイズあり） [編集]

また、ノイズあり「繰り返し型の囚人のジレンマゲーム」というものが、考えられる。ここでノイズとは、「相手が協調しているにも関わらず、なんらかの理由で、裏切ったと解釈されてしまう」（あるいは逆に、裏切っているにも関わらず協調していると思い込む）というものである。

ノイズあり「繰り返し囚人のジレンマゲーム」では、しっぺ返し戦略はもはや最強ではなく、パブロフ戦略が強くなる。これは、前回うまくいったら今回も同じ行動を、前回失敗したら今回はその反対の行動をとるという戦略である。ノイズはどんなに微小であっても、しっぺ返しよりパブロフの方が強いことが理論的に示せる。また、ノイズがあってもなくても社会全体が、突然変異を除き1つの戦略で一様に覆われてしまうことは変わらない。

その他 [編集]

しっぺ返し戦略とパブロフ戦略は、前回の行動のみから今回の行動を決定するというタイプの戦略であるが、これをもっと以前の情報をもとに今回の行動を決められるように、戦略空間を拡大することを考える。

すると、社会全体がある戦略に収束するのではなく、さまざまな戦略が誕生しては滅んでゆくような終わりなき進化がおこりうることがリンドグレーンによって示された。

現実における囚人のジレンマ [編集]

現実世界でも囚人のジレンマないしそれに類似した例を見つける事ができる。例えば核開発では、A国とB国が両方とも核開発を止めれば平和が維持できるにもかかわらず、相手国が裏切って核開発をはじめる恐怖に耐え切れず、双方とも核開発をはじめてしまう（恐怖の均衡）。また低価格競争でも、A社とB社が両方とも値下げを止めれば利益を維持できるにもかかわらず、相手企業の値下げによりシェアが奪われる恐怖に耐え切れず、双方ともに値下げ合戦をして利益を圧縮してしまう。このように囚人のジレンマは政治・経済の解析にかかせない。

アートハーバー　東京

5/12/2010

ナッシュ均衡