2020年10月14日水曜日

ディープラーニング その7

第7章 強化学習と生成モデル

ランダムに操作を繰り返し、正解に近い操作を行った時に高い報酬を与えることで学習させていく方法を強化学習とよぶ。代表的な例としては囲碁の AI であるAlphaGoなどがある


強化学習では行動の最終的な報酬の期待値をQ値と呼びます。また Q 値を求める関係をQ関数と呼び、学習方法によってはQ関数が異なります


最初に計算された Q 値と、実際に行動して得られるQ 値の期待値との差をQ 値に反映させるQ関数を使用する学習方法をQ 学習と呼ぶ。 Q 学習が次のQ 値を期待値で計算するのに対して、 SARSA では実際にもう一度行動させてQ 値を更新する。

またモンテカルロ法では報酬を得られるまではQ 値を更新せず、報酬を得たタイミングで今までを行った行動のQ 値を一気に更新する。AlphaGoはモンテカルロ法を取り入れている


Q 学習にディープラーニングを取り入れたものをDQN(Deep Q Network) と呼びます。

状態を入力値、Q 値を出力として学習を行います


GAN は ジェネレータとディスクリミネータという二つのニューラルネットワークで構成される。画像を生成する場合、ジェネレータはノイズから画像を生成し、ディスクリミネータは実際の画像とジェネレータが生成した画像の真偽を判定します。ジェネレータはディスクリミネータをだませるように学習し実際の画像に近づけるという手法をとります。