Google DeepMind社が開発しているAlpha Goの論文を読んでみたけど、うっすらとしか理解できない。機械学習の知識が足りない。stochastic gradient descentとstochastic gradient ascentってなんだよ!なんかの必殺技にしか見えない。いろいろ調べながら読んでみると、コンピュータ囲碁が劇的に強くなった原因であるモンテカルロ木探索におけるプレイアウト(Natureの論文だとrollout)時の打ち方(Policy network)とモンテカルロ木探索のノードの評価値(value network)を決めるところに畳み込みニューラルネットワークを使った深層学習を適用しているらしい。モンテカルロ木探索については情報処理学会学会誌「情報処理」の以下の記事がわかりやすかった。
- 美添一樹: モンテカルロ木探索-コンピュータ囲碁に革命を起こした新手法, 情報処理 (49) 6, 2008年
- David Silver, D. et al.: Mastering the game of Go with deep neural networks and tree search, Nature (529) 7587, pp. 484–489, 2016.
上記の論文を読む限り、モンテカルロ木探索はプレイアウトができる問題(ランダムに打って終局する。コマの評価値が均等など)で効果を発揮するものなので、Alpha Goがプロ棋士に勝ったからといって、すぐに人間が人工知能に支配されるという話じゃなさそう。どちらかというとこちらの話の方がびっくりぽん。こちらは強化学習に多層ニューラルネットワークを利用した様子。人間レベルの汎用人工知能の実現に向けた展望にある汎用人工知能(Artificial General Intelligence, AGI)実現のためのロードマップの一歩目「汎用ビデオゲーム学習」を踏襲していて怖い(というか、それを理解した上でやっているんだろうけど)。
- Mnih, V. et al.:Human Level Control Through Deep Reinforcement Learning, Nature (518) 7540, Letters, pp. 529–533, 2015
- Google Deepmind、人工知能『DQN』を開発。レトロゲームを自力で学習、人間に勝利
- Googleの自己学習する人工知能DQNを開発した「ディープマインド」の実態、何が目的なのか?
- Adams, S. et al.: Mapping the Landscape of Human-Level Artificial General Intelligence, AI magazine (33)1, 2012.:汎用人工知能の実現へ向けた課題や評価方法の提案
関連記事
- Gigazine: 囲碁チャンピオンを打ち破ったGoogleの人工知能「AlphaGo」を作った天才デミス・ハサビスが人工知能を語る
- A級リーグ指し手1号:AlphaGoが誇大広告ぎみな件:イ・セドル戦前のNature論文の解説。この解説に反して、AlphaGoがイ・セドル氏に勝ったのはPolicy NetworkおよびValue Networkの効果が予想以上だったのではないかと。たぶん、コンピュータ囲碁にも囲碁そのものにも素人の意見だけど、囲碁の打ち方の空間はこれまで人類が想像していたよりもはるかに広かったのだろうと思う。
- イ・セドル氏との5番勝負関連
- 人工知能学会学会誌「人工知能」の関連特集:日本語なのがありがたい。
- 特集「汎用人工知能(AGI)への招待」:人工知能 29(3)
- 人工知能学会誌 連載解説「Deep Learning(深層学習)」
- 深層学習 Deep Learning (監修:人工知能学会) :上の解説記事の単行本版。所属学科の先生がみんな買っているので事務の人に「みなさん買っていらっしゃいますけど、そんなに面白いんですか?」と質問される事態に。