(無題)

専門外ほど面白い。
ということで、今日の木曜セミナーは人工知能の
Reward Modellingについてでした。

これまでの人工知能の訓練では
損失関数(結果がどれくらい駄目かの判定)を
人間が最初に定義してやって、
人工知能は失敗を繰り返す内に
損失関数の値をなるべく減らす方法を見付けていく、
というのが普通だったのですが…

例えば、自走型ロボット掃除機は
前面にあるセンサーに家具や壁が当たると
方向転換して部屋全体を掃除するのですが、
ガシガシ当たりまくるのは嫌なので、
「なるべくぶつからないようなルートを探してね!
(損失関数=掃除中のセンサーの反応回数)」
と損失関数を定義してみたら、
「センサーに当たらなければセーフ」
とバックで爆走するだけになったという、
一休さんみたいな答を返してきたそうです。
また、ゲームで高得点を出す人工知能を作ろうとしたら
ゲームのバグを突いてチートしまくったり、
(ある意味人間らしいものの)
違う、そうじゃないという結果を返すことが多いのだとか。

そこで、損失関数の定義も人工知能に任せてしまって、
人間は人工知能が勝手にやった幾つかの結果を見て
どれが「良い」のかを判定してやることで、
上手く言語化出来ていない判断材料を
損失関数として抜き出してやろうというのが
Reward Modellingなのだそうです。
もしかして、SNSの投稿にも
幾つか人工知能の作ったものが交ざっていて、
それに人々がいいねを付けることで
「バズる」投稿を作る人工知能が
日々ひっそりと学習を積んでいたりするんだろうか…?

コメント