方策πのエントロピーにもとづく内発的報酬

開発日記アイデアメモ

が、もうちょっとで定式化出来そうな気がする。動機自己対局を通じた、コンピュータ将棋／コンピュータ5五将棋の評価関数の強化学習において、より良い報酬を設計したい。大雑把な考え方方策πのエントロピーが、行動選択の前後でどう変化したかをベース…

2019-02-10

「反省会モード（仮称）」のアルゴリズムについて

開発日記アイデアメモ

昨夜思い付いたアイデアで、ひょっとしたら使えるかも？という感じのがあるので、メモがてら書いてみます。まず、前提として「自己対局での強化学習を行う」事とします。学習開始直後は、初期局面から自己対局＆パラメータ修正を繰り返しつつ、「優勢だと…

2018-05-17

カルマンフィルタを用いた強化学習

開発日記アイデアメモ

Kalman Temporal Differencesという、TD法とカルマンフィルタを組み合わせた手法は存在する様なのですが、方策勾配法でも同様の事が出来ないかと検討中。カルマンフィルタの基礎作者: 足立修一,丸田一郎出版社/メーカー: 東京電機大学出版局発売日: 2012/10/…

2017-05-11

個々の駒の位置評価に対するQ学習の適用

アイデアメモ

前にもブログに書いたか実装したかした覚えは有るんですが、見つからなかったので再度書いてみる。んで、やる事。例えば駒の位置評価*1を考える。この時、「先手２四歩の価値」は「max(先手２三歩の価値,先手２三と金の価値)」に近い（はず）。なので、パ…

2015-05-12

囲いの駒の評価をリトライ

開発日記アイデアメモ

第25回選手権バージョンのGA将!!!!!!!!の弱点の一つは「ちゃんと囲えない」事なので、そこをなんとかしようかと。んで、まず囲いの駒の認識方法は以前書いたものでそこそこの精度が出そうなので、それを流用。次に、認識した「囲い」の評価方法。以前は駒…

2015-04-24

上の続き

開発日記アイデアメモ

SR-PGLeafでは予測報酬（≒特定局面から先の勝率）が計算出来るから、それを利用する前提ならもうちょっとアルゴリズムを簡略化出来るかも。評価関数パラメータを初期化する。以下を無限に繰り返す。自己対局で1局指す。棋譜の各局面の予測勝率を計算する…

2015-04-24

局面の予測勝率を基準とする、学習対象局面の選別

開発日記アイデアメモ

現在のGA将!!!!!!!!では、自己対局で生成した全ての局面を学習対象としています。ただ、これは結構非効率的なやり方で、無駄な学習対象局面が存在する為に、深い探索と組み合わせた学習が困難です。という訳で、初期局面から終局直前までの各局面を対象に…

2015-01-19

囲いの認識及びその評価方法

開発日記アイデアメモ

以前どっかで書いた覚えがあるんですが、探しても見つからなかったので再度書きます。まず、「囲いの駒」の認識アルゴリズム。先手の囲いを対象としますので、後手の時は適当に先後反転してやればOKです。先手玉が利いている先手の駒は、囲いの駒である。 …

2014-10-28

GA将!!!!!!!! エレガント詰めルーチン

開発日記アイデアメモ

「Labyrinthus辱め詰め」に触発されて、面白い詰将棋ルーチンを作れないかと検討中。んで、風呂の中でザックリと構想だけねってみました。可能な限り長手数での勝ちを選ぶ。自分の駒（盤上・駒台とも）が少ないほど加点。自玉と敵玉が近いほど加点。ス…

2014-05-07

評価値計算にシグモイド関数を用いる、非線形評価関数の実装

開発日記アイデアメモ

えー、上で書いた「もう一つの課題局面」から…なんですが、どの対局だったか忘れちゃったんで局面図無しです。言い訳すると、一次・二次合わせて16戦してるんで、ログが埋もれても仕方ない…訳は無いんですが。あと、ひょっとしたら練習対局だった可能性もあ…

2013-10-15

駒割の価値の分解

アイデアメモ

今のGA将のロジックだと、駒割は下記の様になっています。歩〜飛車はその駒の価値単独のパラメータがある。と歩〜成銀は「金とと金（OR 成香 OR 成桂 OR 成銀）の差分」をパラメータとして持ち、これに金の価値を足したのが成駒の価値。馬・龍は「角（飛…

2013-05-05

評価値の展開による局面評価の高速化

開発日記アイデアメモ

だれでもやってる当然の事かもしれませんが、軽くググってみても出て来なかったんで書いてみます。まず、現在のGA将!!!!!!の駒割・絶対位置評価関連の評価項目は下記の通りです。駒割（盤上の駒）駒割（持ち駒）筋・段個別の絶対位置評価絶対位置評価 …

2013-04-11

前提条件付きの探索って出来ないかなぁ

開発日記アイデアメモ

えー、まずは自分の指した将棋から、課題になっている局面図の一部を抜粋。"v"付きが後手の駒です。 9 8 7 6 5 v玉一 v金二 v角 v金三飛四角五先手の持駒は香車が一枚、後手は持ち駒無しです。手番は先手。んで、ここでまず浮かんだのが８四香です…

2013-04-04

SVRを使用したFutility Pruningのマージン決定

開発日記アイデアメモ

動的なマージンを用いるFutility Pruningという論文があるんですが、選手権後にこれを実装しようかと検討中。んで、問題はマージン決定のフェーズと、決定したマージンを使用して探索するフェーズに分けなきゃいけないって所ですね。今のGA将の学習方式だ…

2013-03-23

進行度を利用した評価関数のパラメータ学習に関する、新しいアイデア

開発日記アイデアメモ

芝浦将棋Jr.の五十嵐先生と相談中で、ひょっとしたら論文ネタになるかもしれないので、ザクっと書いてみます。まず、自己対戦の結果から強化学習（TDLeaf(λ)やPGLeaf）で学習する際に一番問題になるのは、序盤〜中盤の学習が上手く行かない事です。これは…

2012-10-31

昨夜の続き

アイデアメモ

http://d.hatena.ne.jp/Gasyou/20121030/1351612797 酔いが覚めてみると一つ見落としていたのに気付きました。合議クライアントの多様性が失われる危険性があります。まず、合議で強くする為に必要なのは、「各クライアントの正解率を高める」事では無く「…

2012-10-30

合議における内部局面の最善手共有によるReduction抑制

アイデアメモ

酔った勢いで書いてるんで色々読み抜けとか考慮漏れとかありそうですが、思い付いたんでとりあえず書いてみます。まず、現在のGA将の思考ルーチンは全幅探索*1＋LMRの部分と、全幅末端での2段階静止探索になっています。で、LMRで重要な手を短縮してしまう…

2012-10-02

面白そうな論文見つけた

開発日記アイデアメモ

http://aiwww.main.ist.hokudai.ac.jp/contents/research/activities/thesis/M_23_kimura.pdf 強化学習において、いきなりゴール（将棋の場合だと勝敗）に辿り着くのは難しいので、途中にサブゴールを設定し、そこに到達すると報酬を与えるという事は結構さ…