今日までの分を反映 - GA将？開発日記～王理のその先へ～

~~シグモイド関数無しでの方策勾配法~~ 実装は完了。現在テスト中。
~~レポート収集系の整理~~
~~パラメータのセーブ・ロードまわりのテスト~~ ※問題無し
方策勾配法の提案論文を~~探す＆~~読む ※とりあえず発見。後で読む。
ソフトマックス方策の改善 ※現在実験中
- http://ibisml.org/ibis2008/abst-poster.htm#A04
- http://ci.nii.ac.jp/naid/110008004285
ベイジアン方策勾配法の調査
"平均報酬の多様体に基づく方策勾配法"の調査 ※論文が英語なんで中断中
- http://ci.nii.ac.jp/naid/110006549439
~~NumericVectorクラスの高速化（プロファイルとって、学習が高速化出来そうなら着手）~~ ※遅くなったんで断念
入玉勝ち宣言を実装
合議にリトライ
LMRのパラメータを乱数で初期化して合議
合議の票数を基準とした思考時間制御
USI周りをちゃんと実装する
ニューロで局面情報の圧縮＆評価項目として使用
- http://www.eb.waseda.ac.jp/murata/ryotaro.nishino/openhouse/result.php
二駒絶対位置関係をテスト・デバッグしてから評価項目に追加
Ponderもどき（相手の手番に現局面から学習する）
Historyの特徴に王手・非王手を入れてみる（まずは探索ノード数を同じにして、それで強くなるかテストしてみる）