今日やったとこまで反映＆細々修正・追加

TODO

将棋関連デバッグ将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの高速化 MTD(f) 反復深化ハッシュ【保留】実現確率探索 OR ABC探索 Killer Move メタ強化学習のC++への移植静止探索に脅威の考慮を追加将棋のルールの細かい部分の実装 ←…

2008-01-31

■

TODO TODO

将棋関連デバッグ将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの高速化 ← ここまで1月中 ← どー考えても無理っす ← あと4時間でMTD(f)を実装しろと？ MTD(f) 【保留】反復深化ハッシュ【保留】実現確率探索 OR ABC探索メタ強化学習のC+…

2008-01-28

今日やった分を反映

TODO

将棋関連デバッグ将棋用の評価関数の実装駒割絶対位置による評価王将との相対位置による評価王将の動ける範囲王将周辺の利きの数二駒の位置関係反転パターンに対処したら有効にする将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの…

2008-01-14

開発日記の予定と一本化

TODO

というか、別々に管理してちゃTODOの意味ナシだと今更気付いた。んでもって優先順位を色々いじくる。まずはちゃんと学習させて、細かい事はその後。将棋関連デバッグ将棋用の評価関数の実装駒割絶対位置による評価王将との相対位置による評価王将の…

2008-01-08

αβの高速化は

TODO

MTD(f)って選択肢もあるのを忘れていました。去年の選手権で採用して、バグで落ちまくった苦い経験があるからか、すっかり頭から抜けていました。あ、念の為に書いておくと悪かったのは私の頭で、MTD(f)には何の原因もありません。将棋関連将棋用の評価…

2008-01-07

入玉を忘れてた

TODO

何で、追加。他は以前通り。将棋関連将棋用の評価関数の実装駒割絶対位置による評価王将との相対位置による評価二駒の位置関係王将の動ける範囲王将周辺の利きの数先後共通のパラメータを使う様に上記項目を修正将棋で使う為に強化学習関連のクラ…

2008-01-07

今週の予定

開発日記 TODO

月曜：TDLeaf(λ)の学習部分修正火曜〜水曜：評価関数の修正＆みっちりテスト木曜：千日手・打ち歩詰め関連の実装検討金曜：酒飲んで寝る週末：予備期間さて、今日はウェブの巡回はサクッと済ませたし、バックアップは今やってるところだし、後は開発す…

2008-01-06

まずは評価関数をきちんと作ろう

TODO

将棋関連将棋用の評価関数の実装駒割絶対位置による評価王将との相対位置による評価二駒の位置関係王将の動ける範囲王将周辺の利きの数先後共通のパラメータを使う様に上記項目を修正将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) 将棋…

2008-01-05

高速化予定（短期）

開発日記 TODO

とりあえず後一手でβカットが確定している場合の対処は完了。5倍位は速くなったか？それから、関連して細々したバグも潰して、そこそこまともになったっポイです。後1手でβカットが起きる時の対処（Inside KFEndの手法）ハッシュ表を組み込みハッシュの…

2008-01-04

高速化予定（短期）

開発日記 TODO

後1手でβカットが起きる時の対処（Inside KFEndの手法）ハッシュ表を組み込みハッシュの最善手をオーダリングで上位に持ってくる静止探索で得た上界・下界を保存、次回探索時に再利用学習で必要なのでPVも保存

2007-12-16

やっぱ早めに高速化する

TODO

1日500局とかだと学習が進まないので。実現確率探索はProb Heuristic*1を使ってやろうかなとか考えていますが、上手くいくかどうかはテストしてみないとなんとも言えないんで後日。あと、αβである程度深く読める様になったら詰め将棋要らないかな、とか考…

2007-12-03

USIの優先順位上げる

TODO

対局出来ないとちゃんと学習してるかどうかいまいち分からないので。あと、αβの高速化は最後でいいかな。将棋関連将棋用の評価関数の実装駒割絶対位置による評価王将との相対位置による評価 ← 結局実装した二駒の位置関係王将の動ける範囲王将周辺…

2007-11-17

細々色々調整中

開発日記 TODO

評価関数の出す値が-1から1になるはずがどうも変な値を出してると思ったら、学習率やλが影響していたみたいでした。元々0.1と0.99だったのを、学習率だけ0.01にしたりλも0.7にしてみたらOKになりました。結構色々と強化学習関連の経験値が不足している感じ…

2007-11-11

細々したのがどんどん増える・・・

TODO

将棋関連将棋用の評価関数の実装駒割絶対位置による評価王将との相対位置による評価 ← 結局実装した二駒の位置関係王将の動ける範囲王将周辺の利きの数将棋で使う為に強化学習関連のクラスをC++に移植 ← いまここ将棋のルールの細かい部分の実装千…

2007-11-05

割と進んで・・・ないですね

TODO

将棋関連将棋用の評価関数の実装駒割絶対位置による評価王将との相対位置による評価 ← 結局実装した二駒の位置関係王将の動ける範囲王将周辺の利きの数将棋で使う為に強化学習関連のクラスをC++に移植 ← いまここ詰め将棋の実装 ← ここまでの目標 1…

2007-10-24

本日実装分を追加

TODO

リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装探索値との平均二乗誤差の計算メタ強化学習 αβの実装必勝読みの実装適格度…

2007-10-23

ちょいと更新

TODO

王将の動ける範囲の評価と王将周辺の利きの数を追加。リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装探索値との平均二乗誤…

2007-10-22

ようやく将棋が始まった・・・

TODO

リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装探索値との平均二乗誤差の計算メタ強化学習 αβの実装必勝読みの実装適格度…

2007-09-25

今日までの分を反映

TODO

リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装探索値との平均二乗誤差の計算メタ強化学習 αβの実装必勝読みの実装適格度…

2007-09-23

色々やったので更新

TODO

リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装探索値との平均二乗誤差の計算メタ強化学習 αβの実装必勝読みの実装適格度…

2007-09-09

方針変更を反映

TODO

リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装探索値との平均二乗誤差の計算メタ強化学習 αβの実装必勝読みの実装適格度…

2007-09-03

ちょっと追加

TODO

リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価着手可能数開放度この後の進展次第で追加 MinMaxの実装n 探索値との平均二乗誤差の計算 αβの実装必勝読みの実装 ← ここまでの目標 9…

2007-09-02

今日までの実装項目を反映

TODO

「Q学習の拡張」というのは、上で書いた「非グリーディー行動時には価値関数のバックアップをしない」というものです。適格度トレースを実装した時点で、非グリーディー行動時の価値関数の目標は、単に先読みして得た評価値に過ぎなくなる*1ので、それを目…

2007-09-01

予定変更

TODO

リバーシの時点で各種技術を実装して、効果を検証した上で将棋に移植します。通常のコンピュータ将棋では出てこない用語が色々ありますが、実装したら軽く解説を書きます。リバーシ関連盤面の実装評価関数の実装（あまり複雑な事はしない）石の位置・手…

2007-08-27

細々と更新

TODO

リバーシの盤面の実装リバーシ用の評価関数の実装（あまり複雑な事はしない）石の位置・手番による評価手数と石の数による評価 αβの実装リバーシの必勝読みの実装 ← ここまでの目標 9月2日将棋で使う為に強化学習関連のクラスをC++に移植詰め将棋の実…

2007-08-26

将棋用の強化学習を実装するまで

TODO

リバーシの盤面の実装リバーシの必勝読みの実装リバーシ用の評価関数の実装（あまり複雑な事はしない） ← ここまでの目標 9月2日将棋で使う為に強化学習関連のクラスをC++に移植詰め将棋の実装将棋用の評価関数の実装 ← ここまでの目標9月中絶対位置に…

GA将？開発日記～王理のその先へ～

ネタ勢最強を目指して絶賛開発中。

TODO

今日やったとこまで反映＆細々修正・追加

■

今日やった分を反映

開発日記の予定と一本化

αβの高速化は

入玉を忘れてた

今週の予定

まずは評価関数をきちんと作ろう

高速化予定（短期）

高速化予定（短期）

やっぱ早めに高速化する

USIの優先順位上げる

細々色々調整中

細々したのがどんどん増える・・・

割と進んで・・・ないですね

本日実装分を追加

ちょいと更新

ようやく将棋が始まった・・・

今日までの分を反映

色々やったので更新

方針変更を反映

ちょっと追加

今日までの実装項目を反映

予定変更

細々と更新

将棋用の強化学習を実装するまで