有關"深度學習"的文章 - 圍棋

Audriana · 2016-03-16

Table of Contents

Post
Comments
Related Posts

※ 引述《OxfordGOD (牛津神)》之銘言：
: http://www.bnext.com.tw/article/view/id/38923
: 目前我在網路上看到這篇介紹的比較詳細

第一次粗略地看完這一篇文章結合這幾天來的思考我想提出一些看法

簡略地先說說 AlphaGo 的三大手法:(有錯請指正)

1. 策略網路 (根據大量棋譜訓練監督式學習提出(雙方)最有可能的落子點)

https://goo.gl/bONQ6T

2. 評價網路 (根據兩台能力相同的AlphaGo(隨機多次)下到完，
推估落子點勝率，選勝率高者。由於兩台機器能力一樣，
此機率跟落點有關，跟對手是誰或能力無關)

https://goo.gl/XWfWnv

3. 蒙地卡羅搜尋樹 (混合1與2並進行簡化動作，不需要每一點或每一個分支進行分析)

____________________________________________________________

也請參考 http://www.slideshare.net/ccckmit/alphago-59482042

(用十分鐘瞭解《AlphaGo的幾個可能弱點》)
____________________________________________________________
****** 以下為我的看法 *********
_______________________________

個人覺得有兩個方向可能可以試試讓AlphaGo更接近完美

A. 訓練棋譜先分類如我之前的文章所說明 #1MvdF35h
(避開勝負手/無理手翻盤的棋譜訓練時只採用完勝的棋譜)

B. 將評價網路中的勝率最高著點改為圍地目數最多之著點

當然可以兩種都記錄下來

根據以上的第2點，比方說，模擬10000盤，某a點圍地最多，它的勝率也應該是

勝率最高的幾個點之一，這絕對是正相關的兩種參數
(若不是，系統的不穩定性就出來了(如第四盤的鬼手出現))

--

圍棋