強化学習でトップレベルの強さに到達した逆転オセロニア対戦 AI

トップレベルの強さに到達した『逆転オセロニア』対戦 AI が開発できました！この発表ではプロフェッショナルがこの AI と戦ってみた感想や、この AI 技術の解説、応用先・展望について話していきます。

従来より自分たちは手軽な対戦ゲームである『逆転オセロニア』を例に様々な AI 研究を重ねてきました。例えば大量のプレイヤーログを使用した教師あり学習による対戦 AI や、デッキの自動編成 AI などは実際にゲーム内に導入し、ご利用いただいております。しかし様々なゲーム環境をより良くしていくためには、新たにリリースするキャラクターのポテンシャル推計のため、その適切な使い方も自律的に学ぶことができる最強 AI が必要になります。その一環として自分たちは逆転オセロニアにおいて自律的に試行錯誤から学ぶ強化学習で強さを極める AI 技術を開発してきました。そしてゲーム AI 作成のトッププロと共に開発を進めることで、人間の対戦データから作った教師あり学習 AI に勝る強さに到達しました。発表では開発の鍵となった自社開発の分散強化学習フレームワーク HandyRL の紹介も行います。

Yu Kono
甲野佑
認知的性質と強化学習研究にて情報学博士を取得。2017年 DeNA に中途入社。以来ゲーム事業を中心に強化学習を用いた AI の適用に従事。現在、副業にて東京電機大学の講師も務めており、機械学習に関する概論・実習以外にも学生を指導して、人間の柔軟性を導入した強化学習の基礎研究も推進している。「基礎と応用は両輪で進んでいくべき」を信条に、企業・大学両面から高度な AI 創造に少しでも寄与できればと思っております。
- Facebook
Katsuki Oto
大渡勝己
ゲームAIの道を志し、就職せずにトランプゲーム「大富豪」のAI開発に専念、日本一になり芸能人との対戦を果たす。その後も強化学習や並列探索などの技術を駆使し数多くのゲームAIの研究開発に取り組み、DeNAでは強化学習ライブラリHandyRLの開発をリードする。
- Twitter

トップに戻る