GA将?開発日記~王理のその先へ~

ネタ勢最強を目指して絶賛開発中。

2008-06-09から1日間の記事一覧

色々やった結果

問題点は「勝つ為に(報酬を得る為に)は不要な手を指す」事なんですけど、結構対処は難しそうです。 (あ、対局の条件は上で書いた通り「後手玉に王手がかかったら後手が投了する」です。) 一手指すごとに-0.01の報酬を与えているので、原理的には不要な手…

上の補足

「報酬は勝ったら1、負けたら-1、一手指して決着がつかなかったら-0.01」と書きましたが、最後の-0.01はあくまで実験用という位置付けです。 本番の学習でそうやって報酬を与えると、「100手粘って結局負ける」よりも「王将が特攻して1手で負ける」方が報酬…

ちょっとだけ進展

というか、問題点が見えてきました。 まず、以下の条件で学習させました。 先手は1手読み。方策はε-greedyでε*1は0.01。 後手は5二飛と8二飛を繰り返し、王手されたら投了。 先手と後手の評価関数は別のインスタンスとする*2。 報酬は勝ったら1、負けたら-…

当面の方針

みなさん色々されてる様ですが、私はやっぱり学習にこだわります。 という訳で、まずは後手ランダム指しにして詰めるまでの手数をちゃんと短く出来るのを目標にします。 まずはもうちょっと簡単なところから始めて、後手玉に王手がかかったら後手が投了する…