有關"深度學習"的文章 - 圍棋
By Donna
at 2016-03-16T13:28
at 2016-03-16T13:28
Table of Contents
※ 引述《mathbug (天堂的定義)》之銘言:
: 個人覺得有兩個方向可能可以試試 讓AlphaGo更接近完美
: A. 訓練棋譜先分類 如我之前的文章所說明 #1MvdF35h
: (避開勝負手/無理手翻盤的棋譜 訓練時只採用完勝的棋譜)
在Alpha Go已經訓練完棋譜部份都在跑自對戰的現在
這樣相當於要重新建構整個類神經網路。
個人覺得比較接近其他人/團體要師法Alpha Go可以嘗試的方法
否則要DeepMind重建整個類神經網路然後重新訓練的成本太高了。
(只有最初Supervised Learning有用到棋譜,
後面Reinforcement Learning都是自對戰)
: B. 將評價網路中的勝率最高著點改為圍地目數最多之著點
: 當然可以兩種都記錄下來
: 根據以上的第2點,比方說,模擬10000盤,某a點圍地最多,它的勝率也應該是
: 勝率最高的幾個點之一,這絕對是正相關的兩種參數
: (若不是,系統的不穩定性就出來了(如第四盤的鬼手出現))
你可能誤會value network的使用方式了?
value network回傳的是不是一個著手。
value network回傳的是一個值,是對於落子後盤面的勝率估計
也就是輸入是一個盤面,輸出是估計勝率
然後在MCTS中,一個葉節點的值是 (1-\lambda) 模擬值 + \lambda 估計值
因此value network是用於修正MCTS中random game的精準度的。
相當於估計直說這手的勝率是70%,
模擬的部份幫忙看是比70%高或低多少。
所以如果一開始value network的估計值差很遠,
對同一個點做再多模擬也救不回來,因為他是一個線性公式,與模擬次數無關。
估計值總是會提供一定的影響力。
至於把MCTS中的分數全部改為目數/點數呢?
這個基本上在MCTS蓬勃發展時代(2006-2012)大家就試過了
結論是用目數取代勝率MCTS的收斂比較慢。
因為獲勝目數的平均值意義太低,
90盤輸1目10盤贏10目,和45盤輸1目55盤贏1目
平均都是+0.1,但是正常都會懷疑+10的那10盤棋
究竟是絕妙好棋,還是對手應錯,別忘了,這些都是random game的結果。
另外,陳鐘誠教授對AlphaGo的理解是有問題的,
建議原Po去讀Nature的原始論文比較不會被誤導。
--
: 個人覺得有兩個方向可能可以試試 讓AlphaGo更接近完美
: A. 訓練棋譜先分類 如我之前的文章所說明 #1MvdF35h
: (避開勝負手/無理手翻盤的棋譜 訓練時只採用完勝的棋譜)
在Alpha Go已經訓練完棋譜部份都在跑自對戰的現在
這樣相當於要重新建構整個類神經網路。
個人覺得比較接近其他人/團體要師法Alpha Go可以嘗試的方法
否則要DeepMind重建整個類神經網路然後重新訓練的成本太高了。
(只有最初Supervised Learning有用到棋譜,
後面Reinforcement Learning都是自對戰)
: B. 將評價網路中的勝率最高著點改為圍地目數最多之著點
: 當然可以兩種都記錄下來
: 根據以上的第2點,比方說,模擬10000盤,某a點圍地最多,它的勝率也應該是
: 勝率最高的幾個點之一,這絕對是正相關的兩種參數
: (若不是,系統的不穩定性就出來了(如第四盤的鬼手出現))
你可能誤會value network的使用方式了?
value network回傳的是不是一個著手。
value network回傳的是一個值,是對於落子後盤面的勝率估計
也就是輸入是一個盤面,輸出是估計勝率
然後在MCTS中,一個葉節點的值是 (1-\lambda) 模擬值 + \lambda 估計值
因此value network是用於修正MCTS中random game的精準度的。
相當於估計直說這手的勝率是70%,
模擬的部份幫忙看是比70%高或低多少。
所以如果一開始value network的估計值差很遠,
對同一個點做再多模擬也救不回來,因為他是一個線性公式,與模擬次數無關。
估計值總是會提供一定的影響力。
至於把MCTS中的分數全部改為目數/點數呢?
這個基本上在MCTS蓬勃發展時代(2006-2012)大家就試過了
結論是用目數取代勝率MCTS的收斂比較慢。
因為獲勝目數的平均值意義太低,
90盤輸1目10盤贏10目,和45盤輸1目55盤贏1目
平均都是+0.1,但是正常都會懷疑+10的那10盤棋
究竟是絕妙好棋,還是對手應錯,別忘了,這些都是random game的結果。
另外,陳鐘誠教授對AlphaGo的理解是有問題的,
建議原Po去讀Nature的原始論文比較不會被誤導。
--
Tags:
圍棋
All Comments
By Emily
at 2016-03-16T18:06
at 2016-03-16T18:06
By Noah
at 2016-03-20T07:37
at 2016-03-20T07:37
By Olive
at 2016-03-22T12:27
at 2016-03-22T12:27
By Kama
at 2016-03-25T16:57
at 2016-03-25T16:57
By Anonymous
at 2016-03-30T01:02
at 2016-03-30T01:02
By Emma
at 2016-04-02T11:08
at 2016-04-02T11:08
By Catherine
at 2016-04-07T07:04
at 2016-04-07T07:04
By Hedda
at 2016-04-10T05:11
at 2016-04-10T05:11
By Blanche
at 2016-04-10T10:00
at 2016-04-10T10:00
By Thomas
at 2016-04-11T09:50
at 2016-04-11T09:50
By Catherine
at 2016-04-14T20:22
at 2016-04-14T20:22
By Carol
at 2016-04-15T02:02
at 2016-04-15T02:02
By Hedda
at 2016-04-16T19:05
at 2016-04-16T19:05
By Dorothy
at 2016-04-17T04:18
at 2016-04-17T04:18
By Lydia
at 2016-04-20T16:48
at 2016-04-20T16:48
By Hedy
at 2016-04-23T02:28
at 2016-04-23T02:28
By Gilbert
at 2016-04-23T18:58
at 2016-04-23T18:58
By Ida
at 2016-04-28T06:50
at 2016-04-28T06:50
By Emma
at 2016-04-30T08:27
at 2016-04-30T08:27
By Donna
at 2016-05-01T21:24
at 2016-05-01T21:24
Related Posts
圍棋比賽 可以 call out嗎?
By William
at 2016-03-16T13:26
at 2016-03-16T13:26
怕AlphaGo持續進化 柯潔不貿然接受挑戰
By Odelette
at 2016-03-16T13:00
at 2016-03-16T13:00
再和alphago重覆同一盤棋?
By Irma
at 2016-03-16T12:28
at 2016-03-16T12:28
極速點評:人機大戰落下帷幕
By Emma
at 2016-03-16T12:27
at 2016-03-16T12:27
寺山憐日本圍棋苦寒的背影 望重新贏回尊重
By Skylar DavisLinda
at 2016-03-16T12:11
at 2016-03-16T12:11