Alpha Goの話 - 発声練習

Google DeepMind社が開発しているAlpha Goの論文を読んでみたけど、うっすらとしか理解できない。機械学習の知識が足りない。stochastic gradient descentとstochastic gradient ascentってなんだよ！なんかの必殺技にしか見えない。いろいろ調べながら読んでみると、コンピュータ囲碁が劇的に強くなった原因であるモンテカルロ木探索におけるプレイアウト（Natureの論文だとrollout）時の打ち方（Policy network）とモンテカルロ木探索のノードの評価値（value network）を決めるところに畳み込みニューラルネットワークを使った深層学習を適用しているらしい。モンテカルロ木探索については情報処理学会学会誌「情報処理」の以下の記事がわかりやすかった。

上記の論文を読む限り、モンテカルロ木探索はプレイアウトができる問題（ランダムに打って終局する。コマの評価値が均等など）で効果を発揮するものなので、Alpha Goがプロ棋士に勝ったからといって、すぐに人間が人工知能に支配されるという話じゃなさそう。どちらかというとこちらの話の方がびっくりぽん。こちらは強化学習に多層ニューラルネットワークを利用した様子。人間レベルの汎用人工知能の実現に向けた展望にある汎用人工知能（Artificial General Intelligence, AGI）実現のためのロードマップの一歩目「汎用ビデオゲーム学習」を踏襲していて怖い（というか、それを理解した上でやっているんだろうけど）。

Gigazine: 囲碁チャンピオンを打ち破ったGoogleの人工知能「AlphaGo」を作った天才デミス・ハサビスが人工知能を語る
Ａ級リーグ指し手１号：AlphaGoが誇大広告ぎみな件：イ・セドル戦前のNature論文の解説。この解説に反して、AlphaGoがイ・セドル氏に勝ったのはPolicy NetworkおよびValue Networkの効果が予想以上だったのではないかと。たぶん、コンピュータ囲碁にも囲碁そのものにも素人の意見だけど、囲碁の打ち方の空間はこれまで人類が想像していたよりもはるかに広かったのだろうと思う。
イ・セドル氏との５番勝負関連

人工知能学会学会誌「人工知能」の関連特集：日本語なのがありがたい。
- 特集「汎用人工知能(AGI)への招待」：人工知能 29(3)
- 人工知能学会誌連載解説「Deep Learning（深層学習）」
  - 深層学習 Deep Learning (監修:人工知能学会) ：上の解説記事の単行本版。所属学科の先生がみんな買っているので事務の人に「みなさん買っていらっしゃいますけど、そんなに面白いんですか？」と質問される事態に。