Alpha Goの話

Google DeepMind社が開発しているAlpha Goの論文を読んでみたけど、うっすらとしか理解できない。機械学習の知識が足りない。stochastic gradient descentとstochastic gradient ascentってなんだよ!なんかの必殺技にしか見えない。いろいろ調べながら読んでみると、コンピュータ囲碁が劇的に強くなった原因であるモンテカルロ木探索におけるプレイアウト(Natureの論文だとrollout)時の打ち方(Policy network)とモンテカルロ木探索のノードの評価値(value network)を決めるところに畳み込みニューラルネットワークを使った深層学習を適用しているらしい。モンテカルロ木探索については情報処理学会学会誌「情報処理」の以下の記事がわかりやすかった。

上記の論文を読む限り、モンテカルロ木探索はプレイアウトができる問題(ランダムに打って終局する。コマの評価値が均等など)で効果を発揮するものなので、Alpha Goがプロ棋士に勝ったからといって、すぐに人間が人工知能に支配されるという話じゃなさそう。どちらかというとこちらの話の方がびっくりぽん。こちらは強化学習に多層ニューラルネットワークを利用した様子。人間レベルの汎用人工知能の実現に向けた展望にある汎用人工知能(Artificial General Intelligence, AGI)実現のためのロードマップの一歩目「汎用ビデオゲーム学習」を踏襲していて怖い(というか、それを理解した上でやっているんだろうけど)。

関連記事