まだまだ勉強中
P.42まで練習問題を解いて、読み終わった場所は変わらず。
で、今日やった問題で設定するパラメータが2個になったのですが、すでに手作業での調整が難しくなってきました。
この調子だと評価関数の学習を実装するとパラメータ調整が手におえなくなるでしょうから、やはり何らかの対策が必要になりそうです。
あと、練習問題を解く前の予想と実際にプログラムを組んで実験した結果が違っていて面白いです。
今日あったのは「最適な行動をとる確率が高くなっても、実際に受け取る報酬が減る」というもので、将棋で言うと「最善手を指す為に色々試すより無難な手で勝ちに行く方がいい」って感じでしょうか。
まー、ただ、実用の為の学習では“面白い”なんて言ってられないので、今のうちに色々経験積んどこうと思います。