有關"深度學習"的文章 - 圍棋

Donna avatar
By Donna
at 2016-03-16T13:28

Table of Contents

※ 引述《mathbug (天堂的定義)》之銘言:
: 個人覺得有兩個方向可能可以試試 讓AlphaGo更接近完美
: A. 訓練棋譜先分類 如我之前的文章所說明 #1MvdF35h
: (避開勝負手/無理手翻盤的棋譜 訓練時只採用完勝的棋譜)
在Alpha Go已經訓練完棋譜部份都在跑自對戰的現在

這樣相當於要重新建構整個類神經網路。

個人覺得比較接近其他人/團體要師法Alpha Go可以嘗試的方法

否則要DeepMind重建整個類神經網路然後重新訓練的成本太高了。

(只有最初Supervised Learning有用到棋譜,

後面Reinforcement Learning都是自對戰)
: B. 將評價網路中的勝率最高著點改為圍地目數最多之著點
: 當然可以兩種都記錄下來
: 根據以上的第2點,比方說,模擬10000盤,某a點圍地最多,它的勝率也應該是
: 勝率最高的幾個點之一,這絕對是正相關的兩種參數
: (若不是,系統的不穩定性就出來了(如第四盤的鬼手出現))

你可能誤會value network的使用方式了?

value network回傳的是不是一個著手。

value network回傳的是一個值,是對於落子後盤面的勝率估計

也就是輸入是一個盤面,輸出是估計勝率

然後在MCTS中,一個葉節點的值是 (1-\lambda) 模擬值 + \lambda 估計值

因此value network是用於修正MCTS中random game的精準度的。

相當於估計直說這手的勝率是70%,

模擬的部份幫忙看是比70%高或低多少。

所以如果一開始value network的估計值差很遠,

對同一個點做再多模擬也救不回來,因為他是一個線性公式,與模擬次數無關。

估計值總是會提供一定的影響力。

至於把MCTS中的分數全部改為目數/點數呢?

這個基本上在MCTS蓬勃發展時代(2006-2012)大家就試過了

結論是用目數取代勝率MCTS的收斂比較慢。

因為獲勝目數的平均值意義太低,

90盤輸1目10盤贏10目,和45盤輸1目55盤贏1目

平均都是+0.1,但是正常都會懷疑+10的那10盤棋

究竟是絕妙好棋,還是對手應錯,別忘了,這些都是random game的結果。

另外,陳鐘誠教授對AlphaGo的理解是有問題的,

建議原Po去讀Nature的原始論文比較不會被誤導。

--
Tags: 圍棋

All Comments

Emily avatar
By Emily
at 2016-03-16T18:06
大膽,math大是在美國讀過書,怎麼會不知道要看原始論文呢
Noah avatar
By Noah
at 2016-03-20T07:37
很好奇..輸入的只是一個盤面的一手的話(避免overfitting?)
Olive avatar
By Olive
at 2016-03-22T12:27
那總共要累積多少估計勝率的值 才足夠讓AG下一步棋 @ @?
Kama avatar
By Kama
at 2016-03-25T16:57
補充一點,改成目數的話,NN的supervised learning也不好做
Anonymous avatar
By Anonymous
at 2016-03-30T01:02
中押的棋局都要用某種方式補下完後數子才有數據可學
Emma avatar
By Emma
at 2016-04-02T11:08
例如,由現在的狗繼續下完。但總之ai的目標是贏棋,訓練的
Catherine avatar
By Catherine
at 2016-04-07T07:04
回2F,基本上後面都是靠MCTS往下展開來判斷的。
Hedda avatar
By Hedda
at 2016-04-10T05:11
時候目標卻不是贏棋,反映在勝率的數字應該不會有提升
Blanche avatar
By Blanche
at 2016-04-10T10:00
至於要有多少勝率才會下出下一手應該是機密了。
Thomas avatar
By Thomas
at 2016-04-11T09:50
謝謝1F補充,我只對於game的部份比較熟。
Catherine avatar
By Catherine
at 2016-04-14T20:22
秀哉:這步不錯(70%up) 徒子徒孫們去下下看有沒有問題
門徒:沒問題的多
Carol avatar
By Carol
at 2016-04-15T02:02
秀哉:清源老弟, 你看我這招如何? 呵呵
Hedda avatar
By Hedda
at 2016-04-16T19:05
還好秀哉不會崩潰亂挖送吃
Dorothy avatar
By Dorothy
at 2016-04-17T04:18
那是因為她沒遇到神之一手 XD
Lydia avatar
By Lydia
at 2016-04-20T16:48
秀哉遇到神之一手,可以掛著再去問徒弟,alphaGO不行
Hedy avatar
By Hedy
at 2016-04-23T02:28
AG問啦 徒弟算錯她也沒辦法啊 XD
Gilbert avatar
By Gilbert
at 2016-04-23T18:58
你的90盤輸1目 vs 40盤輸10目的例子剛好可以對照勝率法
顯示這個點/盤面的不穩定性
Ida avatar
By Ida
at 2016-04-28T06:50
所以,既然勝率比較穩定,用目數的意義不大阿。
Emma avatar
By Emma
at 2016-04-30T08:27
我的意思是 應該加一個穩定系數 這兩種差異性就是個觀察
Donna avatar
By Donna
at 2016-05-01T21:24
穩定度不好一定是盤面複雜(如第四盤鬼手)可多花一些資源

圍棋比賽 可以 call out嗎?

William avatar
By William
at 2016-03-16T13:26
小妹是一日棋迷, 這次剛好看了 alphaGo 九段 和李世石 九段 精采激烈的攻防, 但比賽到一半,小李有跑出去抽煙,或是上wc, 雖然這些時間照算,表示比賽到一半時,也是可以暫離的。 會不會以後比賽,遇到很難下的時候, 跑出去說要wc,然後偷偷用alphaGo來計算, 或是call out給 alph ...

怕AlphaGo持續進化 柯潔不貿然接受挑戰

Odelette avatar
By Odelette
at 2016-03-16T13:00
怕AlphaGo持續進化 柯潔不貿然接受挑戰 AlphaGo以總比數4:1擊敗李世?,引起棋界和網友們的熱烈討論。(資料照,美聯社) 2016-03-16 12:18 〔即時新聞/綜合報導〕人工智慧程式AlphaGo與南韓棋王李世?(另譯李世石)的世紀之 戰雖然落幕,但後續引發的話題仍持續延燒,世界棋王柯潔 ...

再和alphago重覆同一盤棋?

Irma avatar
By Irma
at 2016-03-16T12:28
※ 引述《Dialysis (Chiquitia)》之銘言: : 不好意思,有個問題想了好一會兒,實在是不確定答案, : 想來也只有這個板最合適問。 : 倘若重覆alphago第一盤和李世石的對奕內容, : 那麼,alphago還會下出一樣的步數嗎? : 我的直覺告訴我,應該是不一樣, : 但,到底隨機的機轉 ...

極速點評:人機大戰落下帷幕

Emma avatar
By Emma
at 2016-03-16T12:27
http://www.weiqitv.com/index/video_play?videoId=56e823ebd4c36c0c458b4567 這是泰哥在極速點評的節目中, 用他的觀點來解說 李世石九段 vs AlphaGo 的第五局 當天沒有跟到現場直播解說的棋友可以藉由這個節目來了解第五局的內容. ...

寺山憐日本圍棋苦寒的背影 望重新贏回尊重

Skylar DavisLinda avatar
By Skylar DavisLinda
at 2016-03-16T12:11
若要討論源遠流長的圍棋怎樣能在現代永久傳承 直覺我是想到以前看過的一篇網路文章: 「出路在文化藝術性,劉昌赫的方法只會讓圍棋真正敗落」 出處是大陸TOM的棋友論壇 這篇是舊文章了 2007年到現在已近十年 所以文章有些地方可能已經不適用(eg.對局費) 另外這是大陸人寫的 所以觀點代入時要轉換一下 但當中 ...