GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

TODO

今日やったとこまで反映&細々修正・追加

将棋関連 デバッグ 将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの高速化 MTD(f) 反復深化 ハッシュ 【保留】実現確率探索 OR ABC探索 Killer Move メタ強化学習のC++への移植 静止探索に脅威の考慮を追加 将棋のルールの細かい部分の実装 ←…

将棋関連 デバッグ 将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの高速化 ← ここまで1月中 ← どー考えても無理っす ← あと4時間でMTD(f)を実装しろと? MTD(f) 【保留】反復深化 ハッシュ 【保留】実現確率探索 OR ABC探索 メタ強化学習のC+…

今日やった分を反映

将棋関連 デバッグ 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 王将の動ける範囲 王将周辺の利きの数 二駒の位置関係 反転パターンに対処したら有効にする 将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) αβの…

開発日記の予定と一本化

というか、別々に管理してちゃTODOの意味ナシだと今更気付いた。 んでもって優先順位を色々いじくる。まずはちゃんと学習させて、細かい事はその後。 将棋関連 デバッグ 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 王将の…

αβの高速化は

MTD(f)って選択肢もあるのを忘れていました。 去年の選手権で採用して、バグで落ちまくった苦い経験があるからか、すっかり頭から抜けていました。 あ、念の為に書いておくと悪かったのは私の頭で、MTD(f)には何の原因もありません。 将棋関連 将棋用の評価…

入玉を忘れてた

何で、追加。他は以前通り。 将棋関連 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 二駒の位置関係 王将の動ける範囲 王将周辺の利きの数 先後共通のパラメータを使う様に上記項目を修正 将棋で使う為に強化学習関連のクラ…

今週の予定

月曜:TDLeaf(λ)の学習部分修正 火曜〜水曜:評価関数の修正&みっちりテスト 木曜:千日手・打ち歩詰め関連の実装検討 金曜:酒飲んで寝る 週末:予備期間 さて、今日はウェブの巡回はサクッと済ませたし、バックアップは今やってるところだし、後は開発す…

まずは評価関数をきちんと作ろう

将棋関連 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 二駒の位置関係 王将の動ける範囲 王将周辺の利きの数 先後共通のパラメータを使う様に上記項目を修正 将棋で使う為に強化学習関連のクラスをC++に移植 TDLeaf(λ) 将棋…

高速化予定(短期)

とりあえず後一手でβカットが確定している場合の対処は完了。5倍位は速くなったか? それから、関連して細々したバグも潰して、そこそこまともになったっポイです。 後1手でβカットが起きる時の対処(Inside KFEndの手法) ハッシュ表を組み込み ハッシュの…

高速化予定(短期)

後1手でβカットが起きる時の対処(Inside KFEndの手法) ハッシュ表を組み込み ハッシュの最善手をオーダリングで上位に持ってくる 静止探索で得た上界・下界を保存、次回探索時に再利用 学習で必要なのでPVも保存

やっぱ早めに高速化する

1日500局とかだと学習が進まないので。 実現確率探索はProb Heuristic*1を使ってやろうかなとか考えていますが、上手くいくかどうかはテストしてみないとなんとも言えないんで後日。 あと、αβである程度深く読める様になったら詰め将棋要らないかな、とか考…

USIの優先順位上げる

対局出来ないとちゃんと学習してるかどうかいまいち分からないので。 あと、αβの高速化は最後でいいかな。 将棋関連 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 ← 結局実装した 二駒の位置関係 王将の動ける範囲 王将周辺…

細々色々調整中

評価関数の出す値が-1から1になるはずがどうも変な値を出してると思ったら、学習率やλが影響していたみたいでした。 元々0.1と0.99だったのを、学習率だけ0.01にしたりλも0.7にしてみたらOKになりました。 結構色々と強化学習関連の経験値が不足している感じ…

細々したのがどんどん増える・・・

将棋関連 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 ← 結局実装した 二駒の位置関係 王将の動ける範囲 王将周辺の利きの数 将棋で使う為に強化学習関連のクラスをC++に移植 ← いまここ 将棋のルールの細かい部分の実装 千…

割と進んで・・・ないですね

将棋関連 将棋用の評価関数の実装 駒割 絶対位置による評価 王将との相対位置による評価 ← 結局実装した 二駒の位置関係 王将の動ける範囲 王将周辺の利きの数 将棋で使う為に強化学習関連のクラスをC++に移植 ← いまここ 詰め将棋の実装 ← ここまでの目標 1…

本日実装分を追加

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤差の計算 メタ強化学習 αβの実装 必勝読みの実装 適格度…

ちょいと更新

王将の動ける範囲の評価と王将周辺の利きの数を追加。 リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤…

ようやく将棋が始まった・・・

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤差の計算 メタ強化学習 αβの実装 必勝読みの実装 適格度…

今日までの分を反映

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤差の計算 メタ強化学習 αβの実装 必勝読みの実装 適格度…

色々やったので更新

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤差の計算 メタ強化学習 αβの実装 必勝読みの実装 適格度…

方針変更を反映

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装 探索値との平均二乗誤差の計算 メタ強化学習 αβの実装 必勝読みの実装 適格度…

ちょっと追加

リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 着手可能数 開放度 この後の進展次第で追加 MinMaxの実装n 探索値との平均二乗誤差の計算 αβの実装 必勝読みの実装 ← ここまでの目標 9…

今日までの実装項目を反映

「Q学習の拡張」というのは、上で書いた「非グリーディー行動時には価値関数のバックアップをしない」というものです。 適格度トレースを実装した時点で、非グリーディー行動時の価値関数の目標は、単に先読みして得た評価値に過ぎなくなる*1ので、それを目…

予定変更

リバーシの時点で各種技術を実装して、効果を検証した上で将棋に移植します。 通常のコンピュータ将棋では出てこない用語が色々ありますが、実装したら軽く解説を書きます。 リバーシ関連 盤面の実装 評価関数の実装(あまり複雑な事はしない) 石の位置・手…

細々と更新

リバーシの盤面の実装 リバーシ用の評価関数の実装(あまり複雑な事はしない) 石の位置・手番による評価 手数と石の数による評価 αβの実装 リバーシの必勝読みの実装 ← ここまでの目標 9月2日 将棋で使う為に強化学習関連のクラスをC++に移植 詰め将棋の実…

将棋用の強化学習を実装するまで

リバーシの盤面の実装 リバーシの必勝読みの実装 リバーシ用の評価関数の実装(あまり複雑な事はしない) ← ここまでの目標 9月2日 将棋で使う為に強化学習関連のクラスをC++に移植 詰め将棋の実装 将棋用の評価関数の実装 ← ここまでの目標9月中 絶対位置に…