ポーカーから拓くゲーム理論の軌跡――ノイマン、ナッシュ、そしてAIの進化
コラム
541

ポーカーから拓くゲーム理論の軌跡――ノイマン、ナッシュ、そしてAIの進化

Hikaru
執筆者
Hikaru

東京大学教養学部理科一類在籍。高校時代にポーカーと出会い、現在も活動中。CLOViZ株式会社にてライターとして記事執筆を担当。

はじめに

ポーカーをしていると、「GTO」や「ゲーム理論」といった言葉を耳にすることがあるのではないでしょうか?プレイヤー同士がチップを奪い合うポーカーはゲーム理論とは切っても切れない関係にあります。以下では、ゲーム理論の誕生から発展、そしてポーカーとの関わりについて見ていきましょう。ゲーム理論に初めて触れる方から、ポーカーを通してゲーム理論に興味をお持ちの方まで、皆さんの参考になれば幸いです。


1.ゲーム理論とは何か

ゲーム理論という名前から、トランプやボードゲームなど「娯楽のゲーム」を思い浮かべる人も多いかもしれません。しかし学問としての「ゲーム理論」が対象とする「ゲーム」は、もっと広い範囲に及びます。複数のプレイヤーが互いの行動を考慮に入れながら意思決定を行い、何らかの「利得(得点や利益のようなもの)」を得ようとする状況全般を「ゲーム」と呼ぶのです。したがって、その応用範囲はボードゲームやカードゲームなどの娯楽だけではなく、競争入札、企業間の価格競争、国際関係の駆け引き、果ては生物の進化の過程にまで広がります。

「ゲーム理論」では、そうした「ゲーム的」な場面を数学的にモデル化し、プレイヤーたちの戦略や利得を数式で表現し、最適な戦略や均衡状態を探ります。これには高度な数学的手法が用いられますが、もともとこの理論を構築したのは、20世紀前半の天才数学者たちでした。多くの分野の礎を築いた巨人、ジョン・フォン・ノイマンやジョン・ナッシュの名前は、ゲーム理論の文脈でも欠かせません。


2.黎明期――ノイマンの1928年論文

ゲーム理論の歴史を紐解くとき、まず最初に名前が挙がるのがジョン・フォン・ノイマン(John von Neumann)です。1928年、ノイマンは「社会的ゲームの理論について」と題した画期的な論文をドイツ語で発表し、ここで数学的な分析手法を使って複数のプレイヤーが得点をやり取りする状況をモデル化しました。ノイマンといえば、量子力学の数学的基礎付け、現代コンピュータのアーキテクチャの概念化、さらには核兵器開発への関与など、20世紀の科学技術の至るところにその名が出てくる「超天才」です。実に多彩な業績を残しましたが、その中に「ゲーム理論の確立」も含まれているのです。

1928年当時のノイマンは、確率的なゲーム(ルーレットやじゃんけんのようなもの、あるいは簡単なカードゲームなど)を数学的に整理し、そこに登場する用語や概念をまとめました。たとえば「戦略(Strategy)」「利得(Payoff)」といった、現在のゲーム理論でも基礎となる言葉が、この時期にはすでに考察されていたのです。しかし、その先進性ゆえに、ノイマンのアイデアは当時の学界ではそれほど注目されませんでした。そもそも「ゲームを数学で研究する」と聞いただけでは、真剣に取り組むに値すると判断する研究者が限られていたとも言われています。さらに論文がドイツ語で書かれていたことも、英語圏を中心とする国際的な広がりを阻んだ一因でした。


3.『ゲームの理論と経済行動』――1944年の大著

ノイマンが着想を得てから十数年が経った1944年、ついにゲーム理論が大きく飛躍する転機がやってきます。経済学者オスカー・モルゲンシュテルン(Oskar Morgenstern)との共著による著書『ゲームの理論と経済行動(Theory of Games and Economic Behavior)』の出版です。600ページを超える超大作であり、ノイマンとモルゲンシュテルンは「経済学における相互作用の問題は、ゲーム理論を軸にして数理的に分析できる」と主張しました。

経済学の世界では、それまでも市場や競争の状況を数式化しようとする動きはありましたが、それらはプレイヤー同士が互いに影響を与え合う「戦略的な相互作用」を正面から取り扱うには不十分でした。一方でノイマンとモルゲンシュテルンのこの大著は、2人もしくは複数のプレイヤーが点数やお金を奪い合う「ゼロサムゲーム」という単純なモデルから始め、それを拡張して「非ゼロサムゲーム」へと議論を進めていく、体系的な枠組みを提示したのです。「ゼロサムゲーム」や「ミニマックス原理」「期待利得」といった、現代まで使われ続ける用語や定理がこの時点で既に登場しました。これによりゲーム理論が経済学の世界に一気に浸透し、学問領域として確固たる地位を築いていくことになります。


4.ナッシュの登場と「ナッシュ均衡」

ゲーム理論といえば「ナッシュ均衡」という言葉を思い浮かべる人も少なくないでしょう。これはジョン・ナッシュ(John Forbes Nash)が1950年に発表した論文によって打ち立てられた概念です。ナッシュは若き天才数学者であり、博士課程在学中に「任意の有限人数ゲームにおいて、プレイヤー全員の戦略の組み合わせとして必ず一つは均衡点が存在する」と証明してしまいました。これがいわゆる「ナッシュ均衡(Nash Equilibrium)」です。ナッシュ均衡では、各プレイヤーは他のプレイヤーの戦略が固定されていると仮定したときに、誰かが戦略を変えようと思っても期待利得を改善できないような状態が成立します。あらゆるプレイヤーが同時に最適反応をし合った結果、誰も戦略を変えるインセンティブがない、というバランスの取れた点といえます。

ナッシュの功績が画期的だったのは、「必ず存在する」という存在定理を証明したことでした。たとえばジャンケンのように、何を出しても五分五分で勝負が決まるような簡単なゲームでも、数学的に「どんなゲームでも何らかの均衡点がある」と言えるかどうかは別問題です。ナッシュはこの困難を見事にクリアし、そのために「不動点定理」という高度な道具を用いました。この不動点定理は、日本人数学者・角谷静夫が構築に大きく貢献したとされ、ナッシュは「こんな定理があれば証明できる」と思いつき、それが角谷によって提供されたと伝えられています。


5.進化生物学への応用と経済学の深化

ゲーム理論が経済学で脚光を浴びると、さらに多方面への応用が進んでいきます。なかでも特筆すべきは、生物学への応用です。生物同士の闘争や協力行動、あるいはメスをめぐるオス同士の戦略などをゲーム理論で分析しようとする動きが1970年代頃から盛んになりました。この分野は「進化ゲーム理論」と呼ばれ、進化安定戦略(ESS:Evolutionarily Stable Strategy)といった新たな概念が登場します。ESSは、ある戦略を取る個体が集団で多数派になったときに、少数の突然変異戦略では多数派の戦略を打ち負かすことができない、という進化上の安定性を示すものです。生物は合理的に考えて行動しているわけではありませんが、淘汰圧の下で自然と「戦略」が磨かれていくプロセスを数学的にモデル化するには、ゲーム理論が非常に相性がよかったのです。

一方で、経済学では「ナッシュ均衡」や「非協力ゲーム理論」を中心に、複雑な市場競争やオークションメカニズムをデザインする理論が発達しました。オークション理論でノーベル経済学賞を受賞した研究者たちは、その根幹部分にゲーム理論を活用しています。今日の電子商取引や広告配信の入札システムの裏側にも、ゲーム理論の思想が活きていると言っても過言ではないでしょう。


6.ポーカーとゲーム理論の関係――GTOというキーワード

さて、「ゲーム理論」と聞くと、将棋やチェスなども思い浮かぶかもしれません。しかしこれらはいわゆる「完全情報ゲーム」と呼ばれ、互いに盤面の情報をすべて共有したうえで戦略を組み立てるタイプのゲームです。一方、ポーカーは「不完全情報ゲーム」に分類され、自分の手札は見えるが相手の手札は見えない、という情報の非対称性が存在します。不完全情報ゲームでは、相手の手札や動向を推測しながらベットやレイズのタイミングと金額を考えなければいけません。お互いにブラフを仕掛け合ったり、確率論を駆使して期待値を計算したり、と戦略の幅が格段に広いのです。

この「不完全情報ゲーム」に対し、数学的に「これ以上エクスプロイト(攻略)されない」という戦略の一つの目標が「GTO(Game Theory Optimal)」と呼ばれています。ただしゲーム理論の厳密な用語ではなく、2人ゼロサムゲームでの「ナッシュ均衡戦略」をプレイヤー視点から捉えたときに「自分の取る戦略そのものが、相手に攻略されない戦略」である、という意味合いでGTOという言葉がポーカープレイヤーに好んで使われるようになったのです。

GTOの背景――2人ゼロサムゲーム

ポーカー理論で「GTOを極める」とは、突き詰めれば「ナッシュ均衡を自分の戦略として体得する」に近い発想です。ポーカーが2人のプレイヤーがチップを奪い合うゼロサムゲームであると仮定すると、「ナッシュ均衡である戦略の組」が必ず存在し、かつ一方がそれを実行すれば、相手は期待値を高めることが出来ないという性質を持ちます。ただし、ポーカーが実際には6人や9人など複数人で行われる場合、そこではナッシュ均衡の議論が格段に複雑化します。2人ゼロサムの理論がそのまま直ちに適用できない点も多いのです。しかし、実践においてはヘッズアップ(1対1)の状況でのGTOを理解することで、3人以上の場合にも近似的に応用することが出来ます。


7.CFRの登場――ナッシュ均衡を計算する試み

1950年代にナッシュが「ナッシュ均衡の存在」を示してから、現代に至るまで多くの数学者たちが「ナッシュ均衡をどうやって具体的に計算するのか」という問題に取り組んできました。しかしゲームが複雑になるほど、すなわちプレイヤー人数が増えたり、選択肢が膨大になったりすると、理論的に存在がわかっていても実際に均衡点を求めるのは非常に困難です。

ここで大きなインパクトをもたらしたのが、2007年頃に提案された「CFR(Counterfactual Regret Minimization)」という手法です。日本語では「反事実的後悔最小化アルゴリズム」などと訳されます。これはゲームの各局面を「もし別の行動をとっていたらどうだったか?」と振り返り(これを反事実と呼ぶ)、そのときの「後悔」を小さくする方向へ戦略を改善していく、という繰り返しアルゴリズムです。CFRの大きな利点は、2人ゼロサムゲームであれば理論的に「イプシロン・ナッシュ均衡(少し誤差のあるナッシュ均衡)」へ近づいていくことが保証されている点です。実際にポーカー(特にヘッズアップの場面)を高速にシミュレートするときに極めて有用であり、AIがポーカープレイヤーに勝つための鍵となりました。


8.AIの進歩――Libratus と Pluribus

Libratus(リブラタス)の衝撃

2017年、カーネギーメロン大学の研究者らが開発したポーカーAI「Libratus(リブラタス/リブラタスとも)」が、大きな注目を集めました。ヘッズアップのノーリミットホールデムにおいて、人間のトップクラスのポーカープロと対戦し、勝利を収めたのです。将棋やチェス、囲碁などの完全情報ゲームでAIが人間を凌駕する例はすでにあったものの、不完全情報ゲームであるポーカーで「プロプレイヤーに打ち勝つAI」が誕生したことは、ゲーム理論とAI研究の双方にとって画期的な出来事でした。

LibratusはCFR系の手法を発展させ、大量の計算資源を投入しつつ、戦略を段階的に抽象化していく仕組みを取りました。ポーカーでは無限に近い数のベット額や状況が存在しますが、「細かい部分は(期待値的に)あまり影響しない」と見なす局面をまとめ、計算負荷を減らす。その上で重要な局面は詳細に計算する、といった工夫がなされています。その結果、膨大な局面を探索しながら、限られた時間でより正確にナッシュ均衡に近い戦略を導き出せるようになったのです。

Pluribus(プルリバス)の進化

さらに2019年には、同じ研究グループが開発した「Pluribus(プルリバス)」が6人制のノーリミットホールデムでプロプレイヤーたちと戦い、圧勝を収めました。6人という複数人数でのポーカーは、単純なヘッズアップに比べてゲームの構造がはるかに複雑です。2人ゼロサムの理論的な保証は効かず、CFRをどれだけ回しても厳密な収束は保証されません。にもかかわらず、実験的には人間のトッププロを凌駕する強さを示したのです。ポーカープレイヤーの間では「人選が真のトッププロではない」といった議論もありましたが、それでも「複数人ポーカーであっても、既存のAI手法を適用しただけで人間を凌駕できる」という事実は非常に大きなインパクトを与えました。実際、多くのプロが「もうAIには勝てないかもしれない」と考えるに至っています。


9.ゲーム理論はまだ「未完の学問」

ここまで見てきたように、ゲーム理論はすでに多くの成果を上げ、実際にポーカーや将棋、経済学やオークション、進化生物学など実に幅広い分野に応用されています。しかしだからといって、ゲーム理論がすべてを解き明かしたわけではありません。現在のゲーム理論には以下のような課題があります。

  1. 複数人ゲームにおけるナッシュ均衡の性質
    2人のゼロサムゲームではナッシュ均衡が1つ見つかれば、その戦略を採用しておけば相手から攻略される心配がなく、さらに勝ち(期待値)も一定以上確保できる、という性質があります。しかし3人以上になると、ナッシュ均衡の性質はずっと複雑になります。ナッシュ均衡が複数存在したり、どちらが優れているか比較が難しかったりするのです。これは理論的にもまだ未解明な部分が多く、ましてや実践的に計算するのは膨大な手間を要します

  2. 不完全情報ゲーム全般の完全解析は極めて難しい
    ポーカーは手札が見えない不完全情報ゲームの代表例であり、CFRを使ったAIが登場したことで「クリアされた」と思うかもしれません。しかし「ヘッズアップ」「リミット」「スタックサイズが固定」など、実際には段階的に制約を加えて解析してきた過程があり、制約を外せば外すほど計算が飛躍的に大変になります。またプルリバスの例のように、非ゼロサム要素や複数人数での相互作用については、依然として十分な理論的保障がないまま「経験的に強いAI」を生み出しているに過ぎないのです。

  3. 人間は必ずしも合理的ではない
    ゲーム理論は各プレイヤーが「合理的に利得を最大化しようとする」という仮定を置いています。しかし、現実の人間は必ずしも合理的に行動しません。心理的バイアスや損失回避など、非合理的な要素が意思決定に入り込むことが多々あります。こうした要素はゲーム理論の枠外にあるとも言えますが、近年は行動経済学の発展により、「どう非合理的なのか」を定量化しようとする試みも進んでいます。

10.まとめと展望

ゲーム理論の歴史は、ノイマンが1928年に発表した論文から始まり、1944年の『ゲームの理論と経済行動』によって大きく広がりました。1950年にはジョン・ナッシュが「ナッシュ均衡」の存在を証明し、多人数の戦略的意思決定を数学的に扱うための強力な土台を築きました。その後、経済学だけでなく進化生物学や政治学などへの応用が進み、21世紀に入ってからはAI技術と結びついて、ポーカーのような不完全情報ゲームでも人間のトッププロに勝つコンピュータが誕生しています。その背後には「CFR」というアルゴリズムや、大規模な計算資源を巧みにやりくりする実装技術があります。

とはいえ、ゲーム理論は「すべての戦略的問題を解決できる万能理論」ではありません。人数が増えたり、プレイヤー同士が協力関係になる要素が混ざったり、人間の非合理性が絡んだりするほど理論は複雑になり、計算上の困難も飛躍的に増大するのです。そのため、いまだに多くの研究者が「より大きなゲームを、より早く、より正確に解くにはどうすればいいか」と挑戦を続けています。

一方、ポーカー界隈では「GTO戦略を理解して実践しよう」とする動きが広まり、トッププレイヤーの多くは何らかの形でソルバーやCFRベースの研究ツールを活用しています。特にオンラインポーカーの世界では、1対1に近い状況やショートハンド(少人数)で高額を賭けるシーンが頻出するため、AI的アプローチを研究することが必須になりつつあるのです。そのうえで、実戦では相手のレベルに応じて「exploit(相手の弱点を突く戦略)」を混ぜる、逆に「自分が exploit されないようにGTO寄りに守備的なプレイをする」など、現実のプレイヤーは柔軟に切り替えます。完璧なGTOプレイはコンピュータによる膨大な試行や計算を要するため、人間プレイヤーが100%再現するのは困難ですが、学習のガイドラインとしてGTOが浸透しているのは確かです。

こうした状況は、ゲーム理論が学問分野を越えて実社会に活かされている好例でしょう。カジノなどの賭け事の世界だけでなく、私たちの身近なところでもゲーム理論は使われています。たとえば企業間の価格競争や入札システムはもちろん、日常の駆け引きやSNSでの情報発信などにも、複数のプレイヤーが利得を求め合う「ゲーム的状況」が存在します。実は、私たちは日常生活で無意識のうちにゲーム理論的な駆け引きを行っているのかもしれません。


さいごに:ゲーム理論をどう活かすか

ゲーム理論の歴史を振り返ると、ひと握りの天才数学者の着想から始まり、それが経済学を変革し、生物学の理論を進化させ、さらにはポーカーやAI研究の世界をも変えてきました。古典的な理論から始まって、いまやスーパーコンピュータによる莫大なシミュレーションを用いて戦略を洗練する時代に突入しています。しかし、人間は「理論で語れるゲーム」だけをしているわけではありません。理論が不十分なところこそ、研究やイノベーションの余地が大きいとも言えます。今後はAIのさらなる進歩に伴い、予想もしなかった新たな局面が切り開かれるかもしれません。たとえば、「人間の心理的バイアス」や「不完全情報の中でも複数の利害関係が入り混じった場面」にAIが介入し、多人数同時プレイのゲームで新しい戦略が芽生える可能性もあるでしょう。

ポーカーだけを見ても、今なお「6人以上ではどこまで計算可能なのか」「ナッシュ均衡とは別のアプローチでさらに強い戦略が作れるのではないか」など、研究の余地はたくさん残されています。将来、スーパーコンピュータの性能がさらに上がり、あるいは新たな数学的ブレイクスルーが起きれば、もっと多人数の不完全情報ゲームにおいても厳密な均衡戦略を高速で求めることが可能になるかもしれません。

「ゲーム理論」と聞くと、一見きわものめいた印象を持つ方もいるでしょう。けれども、その根底にあるのは「複数のプレイヤーが互いに影響を与え合う世界を数理的に理解しようとする姿勢」です。ビジネス、政治、社会問題、生態系――ありとあらゆる分野において、私たちは無数の「ゲーム」をプレイしているとも言えます。そこにゲーム理論の考え方を適用してみると、意外な事実が浮かび上がり、人間の行動や戦略の妙味に気づけるはずです。

ゲーム理論について知ったことで、ポーカーに興味を持ったという方は、ぜひ一度ポーカーにチャレンジしてみてください。そこには運の要素だけでなく、人間同士の駆け引きや、確率計算に裏打ちされた戦略思考が色濃く存在します。最初はハンドの強弱やベットサイズの基本を学ぶだけでも十分に面白いですし、だんだんとブラフのタイミングや、GTO戦略のエッセンスを理解できるようになると、さらに奥深い世界が見えてきます。

一方で本格的に学術面からゲーム理論に踏み込みたい方は、ナッシュやノイマンの原典に触れ、大学の経済学や数学の講義で扱われる理論書に挑戦してみるのもよいでしょう。そこでは抽象的な数式が並ぶかもしれませんが、ベールをはがすと、実際の人間社会のあらゆる駆け引きが数学という道具を使ってモデル化されていることに感動を覚えるはずです。

ゲーム理論は今も進化し続ける「未完の学問」です。けれどもその歴史をたどってみると、私たちが住む世界がいかに「戦略」や「相互作用」で満ちているのかが、改めて見えてきます。今この記事を読んでいるあなたも、もしかしたら明日からの暮らしの中で「これってゲーム理論っぽい状況かも」と感じる場面が増えるかもしれません。そんなとき、自分なりに「ナッシュ均衡ってどういう意味だっけ?」などと思い返してみるだけで、ほんの少し視野が広がって世界が面白くなる――それがゲーム理論の醍醐味だと言えるでしょう。

初心者から中級者におすすめ!
東大発ポーカーAI学習アプリ 『POKER Q'z』のアプリダウンロードはこちら↓

お好きなプラットフォームで今すぐ始めよう!

Download on the App StoreGet it on Google Play

関連SNS情報

POKER Q'zが気になった方は是非こちらのフォローをお願いいたします!
定期的にポーカーのクイズ、テクニックや戦略などの役に立つTipsを配信しています✨

会社概要

名称    : CLOViZ株式会社

所在地   : 東京都世田谷区赤堤4丁目13番7号

設立    : 2024年5月7日

代表取締役 : 真崎 颯太郎

URL    : https://cloviz.co.jp