Softmax実現確率探索を実装中
Softmax方策と探索ルーチンで共通のコードが必要なのに今更気づいて(おい)、共通部分の切り出しとかやりました。
んで、肝心の探索ルーチンですが、まだ一部未実装。具体的には反復深化する所とか。
という訳で、内部で探索する部分はあるけど、USIの送受信とか学習ルーチンとかから呼び出す口はまだ無い状態です。
明日には完成するはず。明日には。(と言い続けてはや2日)。
Softmax方策と探索ルーチンで共通のコードが必要なのに今更気づいて(おい)、共通部分の切り出しとかやりました。
んで、肝心の探索ルーチンですが、まだ一部未実装。具体的には反復深化する所とか。
という訳で、内部で探索する部分はあるけど、USIの送受信とか学習ルーチンとかから呼び出す口はまだ無い状態です。
明日には完成するはず。明日には。(と言い続けてはや2日)。