【人狼論文No.8】『強化学習を用いた人狼における最適戦略の抽出(2014)』
抄録
近年の人工知能の技術の発展により、チェスや将棋等の完全情報ゲームでは人工知能が人間のプロを相手に勝利するようになった。一方で、不完全情報ゲームについての研究は多くはない。そこでコミュニケーションゲーム"人狼"に着目し、人工知能が目指すべき新たな目標として設定する。本研究ではこのゲーム内で使用される主な言葉をプロトコル化し、各エージェントがそのプロトコルで会話をすることでゲームが進行される。過去の会話内容やプレイヤー数等を環境とし、発言内容や能力者の行動等の戦略をQ学習により学習させ、最適戦略を解析する。
論文の内容
人狼知能プロジェクト関連の論文。
今回は、人狼のAIどうしの対戦で強化学習をおこない、最適な戦略を構築できているか(勝率が上がったか)を見た研究です。
その結果、狼陣営にのみ学習をさせた場合、人間陣営にのみ学習をさせた場合それぞれで、互いに学習をしていなかった場合に比べて各陣営の勝率が優位に上がりました。なお、両方に学習をさせた時は狼陣営の勝率が上がっています。
学習の結果導かれた戦略としては、
- 占い師は非CO者から占う
- 騎士は役職者のうち最も疑わしくない者を護衛する
- 人間陣営は疑わしい霊媒師を優先的に追放する
- 狼陣営が占い師を騙る際は、真占い師の白先に黒を出す
- 狼が役職を騙らない場合、非CO者を襲撃する(=騎士を狙った噛みを優先する??)
- 5人または7人盤面の夜ターンは、狼は襲撃をおこなわず4人盤面・6人盤面を作るよう調整する
などがあります。
特に興味深いのが、最後の「狼は偶数進行が強い」という考え方。村の残り人数が3人だと33%で追放されるが、あえて襲撃をおこなわず4人盤面を作ると25%に下がるというのは、納得しました。
また、占い師の基本的な占い先や、霊媒ローラーなど人間同士の人狼ゲームでよく見られる戦術を、AIが学習により発見していることに驚きました。
強化学習の仕組み
今回の論文で強化学習の手法として挙げられているのが、ε-グリーディ法でした。
人工知能の学習においては、かなり一般的な手法のようです。
学習は、対戦の中で着手可能な事柄をどんどんとランダムに試していき、良い結果につながった手を有力な最適解候補として更に探索するという方法でなされます。ただしこの欠点としては、うまくいきそうな手が発見された時にそれ以外のもっと良い手があるかもしれないにも関わらず、現時点での最適解候補を取り続けてしまうことです。
そこでεグリーディ法では、定数εの確率で最適手段候補とは違う行動を取ることで、探索の幅を広げようとしています。
最初に発見した行動に依存せず、様々な場面における最適行動を探していけるとのことです。