「AIがポーカーでも人間に勝ったらしい」
そんな話を聞いて、「え?ポーカーって運のゲームじゃないの?」と思った人も多いかもしれません。
たしかに、チェスや囲碁のように全ての情報が盤面に出ているゲームなら、AIが計算で勝つのも納得できます。
でもポーカーは、相手の手札が見えないし、ブラフや駆け引きもある。だからこそ、「人間の感覚や読みがものを言うゲーム」だと思われてきました。
実はその通りで、ポーカーはAIにとって長年“越えられない壁”とされてきたゲームです。どのカードが来るかもわからない。相手が本気かどうかもわからない。
「見えない情報をどう判断するか」が勝負を分ける。そんな不完全情報の世界に、AIがどう立ち向かってきたのか──その過程には、意外なドラマが詰まっていました。
本記事では、AIとポーカーの戦いの歴史を振り返りながら、
- 過去に登場した有名AI(Cepheus、Claudico、Libratus)はどうやって進化してきたのか
- AIはどうやって“読み合い”を計算に変えたのか
- 今のポーカーは、人間とAIのどちらが優勢なのか
- そして、これからのポーカーはどこへ向かうのか
といったテーマを、専門用語を避けつつ、できるだけわかりやすく紹介していきます。
「GTOって何?」「AIって実際どこまでやってるの?」「まだ人間にも勝てる余地はあるの?」
そんな疑問を持っている人にこそ、読んでほしい内容です。ポーカーというゲームを通して、人間とAIの頭脳戦の“今”を一緒に覗いてみましょう。
ポーカーAIの歴史と代表例
チェスや囲碁といった「完全情報ゲーム」では、すでにAIが人間を超えたという話は有名ですよね。ですが、ポーカーはそれとはちょっと違います。相手のカードが見えない、いわゆる「不完全情報ゲーム」に分類されていて、ブラフや心理戦も絡んできます。そのため、AIにとってはより高い壁とされてきた分野です。
ここでは、過去数十年の間に登場した代表的なポーカーAIたちを紹介していきます。
Polaris(2008年)
カナダ・アルバータ大学の研究チームが開発したAIで、「制限付きのヘッズアップ・テキサスホールデム(HULH)」に特化したものでした。
プロプレイヤー相手に勝利したことで、ポーカーAI研究の大きなマイルストーンになりました。
Cepheus(2015年)
同じくアルバータ大学が開発したAIで、Polarisの進化版と言える存在です。このCepheusというAIは、「ベット額に制限のあるヘッズアップポーカー」でほぼ完璧な戦略を身につけたと言われています。
相手の手札が見えないという前提の中で、どんな状況でも“理論的に正しいプレイ”ができるように、ひたすら自分自身で何千億回も対戦を繰り返して学習しました。
たとえばフロップでベットを選んだけど、あとから振り返るとチェックの方が得だったとわかる場面ってありますよね。その「もっといい選択肢があったかもしれない」という後から気づくズレを数値として記録し、そこから次の判断を修正していくイメージです。
この「ズレ」の累積を少なくしていくことで、AIは最終的に“もっとも損しにくいプレイ”に近づいていきます。これがポーカーAIが人間並み、いや人間以上に強くなれる根拠でもあります。
Claudico(2015年)
Claudicoは、カーネギーメロン大学(CMU)が開発したポーカーAIで、ヘッズアップ・ノーリミットホールデム(HUNL)に挑戦した最初の本格的なボットです。
2015年、Claudicoは4人のトッププロ(Doug Polk、Jason Les、Dong Kim、Bjorn Li)と13日間にわたり、合計80,000ハンドを対戦。2勝2敗という結果でしたが、トータルでは人間側が約73万ドルのプラスとなり、スコア上は人間チームの勝利となりました。
Claudicoのプレイは独特で、ナッツ(最強ハンド)でもチェックしたり、奇妙なベットサイズを使うなど、人間には理解しがたい行動が多く見られました。プロたちはそのパターンを読み取り、うまく搾取したとされています。
それでも、このレベルの複雑なポーカーで、トッププロと互角に渡り合えたのは大きな成果でした。
Libratus(2017年)
Libratus(リブラタス)は、カーネギーメロン大学(CMU)が開発したポーカーAIで、先代のClaudicoの経験をもとに大きく進化したバージョンです。
このAIは、2017年1月にアメリカ・ペンシルベニア州のRiversカジノで行われた20日間・12万ハンドにもおよぶロングマッチで、4人のトッププロ相手に圧勝という歴史的な成果をあげました。
Libratusは、1ハンドごとに平均して約0.15ビッグブラインド(=100ハンドで約15BB)のペースで勝ち続けていました。 これはプロ同士の対戦ではまず見ないほどの差で、「運が良かっただけ」ではまず起こらないレベルです。 実際、統計的に見てもほぼ100%の確率で「実力による勝利」だったとされており、Libratusの強さはデータでも完全に裏づけられました。
Libratusは、人間のプレイ履歴や感覚的な経験に頼らず、すべて自分との対戦データと膨大な計算だけで戦略を組み立てていました。 まさに、ポーカーという“読み合いのゲーム”を、数字とロジックだけで制したAIといえます。
DeepStack(2017年)
同じ2017年、カナダ・アルバータ大学のチームも独自のアプローチで開発したポーカーAI「DeepStack」を発表しました。こちらもヘッズアップ・ノーリミットホールデム(HUNL)を対象としたAIです。
DeepStackの特徴は、深層学習と局所的な再計算(継続的再解決)を組み合わせた点にあります。対戦中にすべてを事前に計算しておくのではなく、その場その場で重要な局面だけをリアルタイムに再計算することで、現実的な計算量に抑えつつも、高精度な判断ができるようになっています。
このAIもまた、1対1のノーリミット・ホールデムで、11人のプロプレイヤーと計44,000ハンドを対戦し、統計的に有意な勝利を記録しています。特に注目すべきは、100ハンドあたり約49ビッグブラインドという驚異的な勝率で、これはプロ同士の対戦ではまず見られないレベルです。
その他のAIとツール
研究用のAIとは別に、競技用ボットや市販ソフトの分野でも進化は続いています。
たとえば、コンピュータポーカートーナメント(ACPC)では、LibratusやDeepStackの開発チームがBabytartanianやSlumbotといった強力なボットを公開しています。こうしたボット同士の対戦を通じて、ポーカーにおける戦略研究がさらに深まっています。
また、一般プレイヤー向けには、
- PokerSnowie(GTOをベースにした学習ソフト)
- GTO+(個人向けソルバー)
- GTO WizardやDeepsolver(直感的なインターフェースと高速計算で人気のツール)
といったツールが登場しており、戦略トレーニングやハンド分析に広く使われています。
これらのツールは公式戦では使用禁止とされることが多いですが、プレイの精度を上げるための練習用として、多くのプレイヤーが日常的に活用しています。
ポーカーAIの技術的アプローチ
CepheusやLibratusのようなポーカーAIは、どうやって“読み合い”を計算に変えているのか、ここでは、その裏にある技術の仕組みを少しだけ覗いてみましょう。
まず基本となるのが「CFR(Counterfactual Regret Minimization)」という手法です。
これは、自分が取らなかった行動について「もしあの時こっちを選んでいたらどうなっていたか?」を想定し、その度合いを毎回数値化していくものです。
たとえば、フロップでベットしたけど、結果的にはチェックの方が良かったとわかる、そうした「判断のズレ」を少しずつ修正していくことで、AIはどんどん“損しにくい戦略”に近づいていきます。
このようなCFRを何十億回、何百億回と自己対戦で繰り返すことで、AIは理論的に正しい行動パターンを構築していきます。CepheusのようなAIは、これをスーパーコンピュータ級の演算力で実行し、膨大な戦略データを作り出しました。
ただし、ポーカーは組み合わせがあまりに多すぎて、すべての場面を一つずつ計算するのは現実的ではありません。
そこで登場するのが「ゲーム抽象化」という工夫です。
これは、似たような局面をグループ化してまとめて処理する手法で、Libratusではこの方法を使って、理論上10の161乗もある場面を“ブループリント戦略”という基本戦略にまで圧縮していました。
さらに、対戦中に「この場面は例外的だ」と判断したときには、その場で戦略を再計算する機能も組み込まれており、より柔軟に対応できるようになっています。
DeepStackでは、これをさらに進化させて、ディープラーニングを使って局面の“価値”を瞬時に評価しながら、必要な部分だけをリアルタイムに再計算するというスタイルを取りました。
こうした技術の積み重ねによって、ポーカーAIは人間には到底不可能なレベルの情報処理を実現し、対戦中でも状況に応じて最適な戦略を組み替えていけるようになっているのです。
今後の展望と課題
今後のポーカーAIをめぐる課題は、技術の発展と、それをどう社会的・倫理的にコントロールするかというバランスにあります。
特に注目されているのが、リアルタイム支援(RTA)ツールの使用です。とくにハイステークスのオンラインキャッシュゲームでは、GTO計算結果を即座に提示してくれるツールの利用が目立ちます。これにより、プレイヤーは理論上の最善手を常に選べるようになりますが、その一方で「人間の読みや直感が不要になってしまうのでは?」という懸念も広がっています。
実際、2024年のWSOP(ワールドシリーズ・オブ・ポーカー)では、大会中の電子機器使用が原則禁止となりました。
これは前年に起きた、プレイヤーがラップトップを用いてソルバーを参照していた「ラップトップゲート」事件を受けた対応で、今後は他の大会やプラットフォームにも、同様の規制が広がっていくと見られています。
「ラップトップゲート」事件とは、2023年のWSOP(ワールドシリーズ・オブ・ポーカー)メインイベント決勝テーブルで発覚したリアルタイムアシスタンス(RTA)疑惑です。
あるプレイヤーのサポートチームがGTOソルバーを搭載したラップトップを観客席で使用していたことが確認されました。これにより、プレイヤーが対局中に戦略的な助言(とくにポストフロップの判断)を受けていたのではないかとする疑惑が浮上し、大きな議論を呼びました。
当時のルールでは「プレイヤー本人の使用は禁止」でしたが、「観客側のツール使用」については曖昧な部分があり、明確なルール違反とは断定されませんでした。
オンライン環境では、すでに複数の大手サイトがAIによる不正検出システムを導入しています。
たとえばPokerStarsでは2015年に、チートボットを使用していたアカウントから70万ドル以上を回収。PartyPokerも2019年に多数の不正プレイヤーを永久追放したと報告されています。
これらの検出には、機械学習を用いたモデルが使われており、膨大なプレイ履歴から勝率の異常やベットパターンの不自然さなどを分析し、不正の兆候を発見します。
たとえば2019年には、プロプレイヤーのフェドール・クルーゼ氏が、2台のPCを使って解析データを参照しながらプレイしていたことが発覚し、話題になりました。このケースは、不正の巧妙化と、それを見抜くことの難しさを浮き彫りにしています。
一部のサイトでは、不正防止の新たな取り組みとして、ウェブカメラでの本人確認を提案する声も出ていますが、利便性やプライバシーの問題から、現時点では実用化が限定的にとどまっています。
その一方で、AIを活用したトレーニングツールは、プレイヤー層の拡大にもつながっています。初心者にはPokerSnowieのようなソフトで基礎戦略を学ぶきっかけとなり、中級者以上ではGTOソルバーを用いたセルフ学習が一般化しています。多くのプレイヤーが、対局後にソルバーでプレイを振り返ることを習慣化し、着実にスキルを高めているのが現状です。
また、コミュニティの中には「AIはあくまで補助ツールであり、本質は人間同士の駆け引きにある」という倫理観も広まりつつあり、AI活用の是非やモラルをめぐる議論も盛んになっています。
さらに、ポーカーAIの研究成果は、ポーカーにとどまらず他分野への応用も期待されています。Libratusの開発者であるサンドホルム氏らは、企業間の交渉や安全保障など、「現実世界の不完全情報ゲーム」にも技術を転用できる可能性があると指摘しています。
おわりに
ポーカーAIは、すでに多くの領域で人間の能力を上回る戦略的判断を示してきました。
今後はさらに計算スピードや精度が向上する一方で、それをどう使うか、どこまで許容するかという議論が重要になっていくでしょう。
AIの恩恵を受けながらも、ポーカーが持つ「人間同士の読み合い」という魅力を損なわずに保っていく、そのバランスこそが、これからのポーカー界にとって最も大きなテーマと言えそうです。
参考文献: CMU教授Sandholmらの論文や発表記事、UAlbertaチームのDeepStack発表、およびオンラインポーカー関連報道など
コメント