（無題） | sou16の物理学的な日々〜sou16's Physical Daily Life.

専門外ほど面白い。
ということで、今日の木曜セミナーは人工知能の
Reward Modellingについてでした。

これまでの人工知能の訓練では
損失関数（結果がどれくらい駄目かの判定）を
人間が最初に定義してやって、
人工知能は失敗を繰り返す内に
損失関数の値をなるべく減らす方法を見付けていく、
というのが普通だったのですが…

例えば、自走型ロボット掃除機は
前面にあるセンサーに家具や壁が当たると
方向転換して部屋全体を掃除するのですが、
ガシガシ当たりまくるのは嫌なので、
「なるべくぶつからないようなルートを探してね！
（損失関数＝掃除中のセンサーの反応回数）」
と損失関数を定義してみたら、
「センサーに当たらなければセーフ」
とバックで爆走するだけになったという、
一休さんみたいな答を返してきたそうです。
また、ゲームで高得点を出す人工知能を作ろうとしたら
ゲームのバグを突いてチートしまくったり、
（ある意味人間らしいものの）
違う、そうじゃないという結果を返すことが多いのだとか。

そこで、損失関数の定義も人工知能に任せてしまって、
人間は人工知能が勝手にやった幾つかの結果を見て
どれが「良い」のかを判定してやることで、
上手く言語化出来ていない判断材料を
損失関数として抜き出してやろうというのが
Reward Modellingなのだそうです。
もしかして、SNSの投稿にも
幾つか人工知能の作ったものが交ざっていて、
それに人々がいいねを付けることで
「バズる」投稿を作る人工知能が
日々ひっそりと学習を積んでいたりするんだろうか…？