可否更改alphago的設定 - 圍棋

Leila avatar
By Leila
at 2016-03-11T13:05

Table of Contents

先說我是個兩日棋迷,可以等同於完全不懂圍棋(可能有十幾級?),

實在班門弄斧..不過想要來講一下我讀AlphaGo論文的心得,
(論文連結:http://www.willamette.edu/~levenick/cs448/goNature.pdf )
希望能對這裡的專業板友提供一點參考價值@@
然後這論文是一月發的,跟現在的AlphaGo很可能有所不同。

先說下面肯定有不少錯誤,請大家指正orz
(更新錯誤:感謝fgkor123的連結,寫得比我好百倍,不過好像原作者關了orz)
感謝countingtls版友的啟發,本來有些看不懂的地方被他指出重點突然就懂了XD

-

AlphaGo的運作原理(超級簡化版)的四個部分:

(1) SL策略網路: (SL=監督式學習)

從數十萬個棋譜學習,讓類神經網路猜測職業棋手在每個盤面會下的一步,不搜尋。
這裡可以達到57%的猜測準確率。
(讓業餘初段的旗手能自由翻閱棋譜來猜頂尖職業棋手的下一步應該可以做得遠遠更好?)
用這個網路而不搜尋,對Pachi(KGS業餘2段)有12%勝率。

(1')展示策略(rollout policy,亂翻一通XD):

類似SL策略網路,但使用簡單許多的棋盤特徵來做判斷。
展示策略只能達到24%的猜測準確率。
呼叫一次展示策略要用0.000002秒,相對於SL策略網路要0.003秒(1500倍)。

(2) RL策略網路: (RL=強化學習)

從SL策略網路開始自我改良,一直自己跟自己的變種下(還是不搜尋)。
每一局下到完為止,下的結果只問勝負不問差幾目
最後進化出來得到的RL策略網路不搜尋對Pachi有85%勝率。
(大概在這裡可以想成只憑直覺完全不做計算而有至少業餘二段的棋手)
補註: SL和RL策略網路其實不是真的猜最有可能的一步,而是給出每個步數認為的機率。

(3) RL助值網路:

用RL策略網路自己跟自己下棋+搜尋來建立,
這次的目的是建立一個網路來對每個盤面賦予一個分數
大概類似於『往後計算個幾步,問問RL策略網路對得到的盤面有何看法』。
這個分數誕生於RL策略網路給與的回饋,與目數差無直接關係。

(4) 真AlphaGo:

用(1)SL策略網路,(1')展示策略和(3)RL助值網路一起來做判斷基準,
(1), (3)的用法應該就是直接用來評分(兩者具體用法不同,不過我自己還不太懂)
但(1')的使用方法是以當下盤面開始自己跟自己下直到遊戲結束用得到的結果評分。

然後用蒙特卡洛樹搜尋法的變體。我個人的粗淺理解是:
(還蠻直覺的我覺得)
越好的落子點(機率越高&分數越高)就去計算越多步,
反過來用計算的結果來定義什麼是好的落子。
最後被計算最徹底的一步,AlphaGo就判定為當下最佳的一手。

-

討論:

1. 文章內有提到AlphaGo對CrazyStone(KGS業餘6段)讓四子的勝率是77%。
我是個大外行,不過如果假設是李世石是不是可以有高得多的勝率?

我的猜測是要讓AlphaGo很好的學會玩讓子還是有點障礙,
因為AlphaGo的力量本源是自己跟自己下來追求進步:p
而自己跟自己下讓子只會是一方慘電另一方,聽起來不是很有學習效率..

2. AlphaGo並不是嚴格意義上的追求最大勝率;讓我覺得很奇妙與神秘的,
它追求最大勝率以及下起來最像職業棋士(SL策略網路)。

就在下讀到的,它打一開始就不認得什麼是目數差。
但反過來說,它所學習的職業棋士顯然會考慮目數差,
所以某種意義上它還是有『考慮』到的...

3. 論文裡的AlphaGo並沒有提到劫,就算AlphaGo真的很討厭劫,
它多半也不知道他在討厭的東西是劫。
以我這個外行看來,一種可能是:
『引入這種又臭又長的結果會讓我在搜尋範圍內可預見的勝率變低。』之類的@@

我自己是認為教AlphaGo去刻意避免劫不大可能:他的計算公式是自己生成的,
人類很難重新去讀懂。加入刻意的人工設計多半會弱化它。

4. 由於(1')展示策略的存在,因此不管AlphaGo的搜尋計算(=蒙特卡洛樹)考慮多少盤面,
他其實還有加一個會粗糙的另外計算到底的設計。
所以如果一個劫所展開的變化『不難』,那不管後續有幾百步AlphaGo應該都是能照顧的。
(我猜這是AlphaGo理解循環劫的主要方式)

--
Tags: 圍棋

All Comments

Rebecca avatar
By Rebecca
at 2016-03-14T16:38
AG:這種煩的要死又沒增加多少勝率的東西我才懶得算
Frederica avatar
By Frederica
at 2016-03-19T14:04
給AlphaGo打電動打幾天就贏過一堆人類高手 哪知道他怎學
Sandy avatar
By Sandy
at 2016-03-24T06:14
避免打劫的確可以簡化計算. 電腦演算好像是有這種趨勢
Quanna avatar
By Quanna
at 2016-03-27T14:39
train 久了以後 應該會往勝率偏過去
Belly avatar
By Belly
at 2016-03-29T07:50
不只打劫, 能簡化的幾乎都會選簡化 就算"損"
Andrew avatar
By Andrew
at 2016-04-01T02:44
只是我們所謂的簡化和電腦的簡化可能又有所不同.對我們來說
計算十幾步叫多,對電腦而言可能是三四十步
Thomas avatar
By Thomas
at 2016-04-04T10:31
根據前幾篇,AG是透過勝率來計算,也就是說除非只有
拼劫才能勝,不然沒有必要一定得開劫爭,而且根據高
手分析,AG常常選擇花樣少但是也相當有力的步數,可
能這種下法也讓花樣多的劫爭變得不利
當然身為一個五日棋迷,無法確保自己說的有沒有意義
,但是看了很多高手的分析,也隱約覺的自己好像可以
看懂其中變化了,這也是圍棋的一道福音不是嗎?讓更
多人對圍棋有興趣!
Isla avatar
By Isla
at 2016-04-08T22:33
你說會避免打劫有點矛盾 1.第二場是李世石有打劫的機會
而不是AlphaGo 如果小李真的打結了Alphago也不能避免 2
.RL跟SL策略網路一定也有把打劫思考進去 因為他是為了
求勝而不是要求穩 況且棋譜肯定也有打劫的部分
Kama avatar
By Kama
at 2016-04-11T17:42
若打劫會讓盤面複雜化,從而讓勝率降低(或不易計算勝率)
依阿發狗的演算法,的確會盡量避免打劫。
Catherine avatar
By Catherine
at 2016-04-12T05:50
迴避劫的觀點我非常認同,就像贏定不會跟對手打半劫一樣
Linda avatar
By Linda
at 2016-04-14T07:11
在盤面優勢上避免打劫,我想多數的高段都會這樣下,也理
所當然,但這都不代表阿發狗不擅打劫。
Olive avatar
By Olive
at 2016-04-16T06:15
因為打劫就會讓盤面複雜度增加,電腦簡化局面一定會避免
Steve avatar
By Steve
at 2016-04-21T03:05
我覺得現在大家還會覺得打劫會複雜電腦的計算有點小看A
ja Huang跟AlphaGo了
Ida avatar
By Ida
at 2016-04-21T20:34
To sapc87952: 抱歉我確實外行XD,我的意思是說如果有
我不知道有沒有,不過我覺得這未必是小看,
Oscar avatar
By Oscar
at 2016-04-24T22:54
相反來說 那是因為目前AlphaGo沒有在盤面落後過所以不
會主動挑起劫爭
Annie avatar
By Annie
at 2016-04-26T22:41
只要接下來三盤棋,希望李世石能打一次劫爭就好了
Ida avatar
By Ida
at 2016-04-28T20:18
複雜對AlphaGo應該就是個相對概念,它可能就想要避免
David avatar
By David
at 2016-05-01T01:42
但是如果是人類主動挑起劫爭那就不一樣了 這也是李世
石第二盤可惜的原因 而大家會亂傳有簽保密協定就是因
為目前七盤棋都沒有人類挑起劫爭
Freda avatar
By Freda
at 2016-05-03T19:05
嗯,我也是猜測AlphaGo優勢時會傾向簡化
Elizabeth avatar
By Elizabeth
at 2016-05-07T21:56
Alphago會在優勢盤面避免打劫我認同 但人類要打劫的話
他還是得應戰的XD
Emily avatar
By Emily
at 2016-05-10T15:46
話說回來,膜拜原PO數學大神XD
Edward Lewis avatar
By Edward Lewis
at 2016-05-13T01:24
這麼一說突然覺得對李九段不太公平,被期待要去製造劫..
不過這應該也是它接下來的合理策略突破點嗎XD
Carol avatar
By Carol
at 2016-05-15T04:09
sorry, 我是說李九段合理的策略突破點
Hedy avatar
By Hedy
at 2016-05-18T16:02
劫爭需要精算,但精算力上,人腦就是不如電腦,就算是職
棋,也很難不對自己的精算力正確與否心生懷疑吧...
Jack avatar
By Jack
at 2016-05-21T18:46
江哥發文必推
Una avatar
By Una
at 2016-05-23T19:07
To lwei781: 有點神祕的是最後的搜尋參考SL策略網路,
Skylar Davis avatar
By Skylar Davis
at 2016-05-26T03:12
而非RL策略網路,論文裡有解釋為什麼比較好。
類似RL的策略網路是被訓練來找出最高機率而不是一致的
Kama avatar
By Kama
at 2016-05-27T13:41
判斷機率,不過我還是覺得挺怪..
Kelly avatar
By Kelly
at 2016-05-28T12:35
若第二場有打劫但輸了就會被說精算一定輸電腦劫個屁xD
Kelly avatar
By Kelly
at 2016-05-30T10:33
我要看sky哥點評理工宅darkseer的分數 (滾動)
Dinah avatar
By Dinah
at 2016-06-04T02:18
shellpig XDDD 超中肯 XDDDD
Rae avatar
By Rae
at 2016-06-04T16:10
重點是輸 贏 顆顆
Jacob avatar
By Jacob
at 2016-06-06T19:36
其他軟體的打劫能力如何? 是不是跟alphago一樣?
Elvira avatar
By Elvira
at 2016-06-09T08:58
Zen不是還不會打劫嗎
Quanna avatar
By Quanna
at 2016-06-10T14:50
所以這RL分數算是用結果評價了古往今來的布局讓AG選個最猛
Caitlin avatar
By Caitlin
at 2016-06-15T09:43
的來用嗎?
Caroline avatar
By Caroline
at 2016-06-16T10:01
zen不會打劫 那AlphaGo應該也選不到太多劫爭的盤面
Andrew avatar
By Andrew
at 2016-06-20T08:18
自我對局的資料庫裡面沒什麼劫爭的棋局(?)
Elvira avatar
By Elvira
at 2016-06-22T20:42
AlphaGo若有被餵過譜,不可能沒有對劫爭上的理解。
aja也不會放掉這一塊弱區不去處理。
Edward Lewis avatar
By Edward Lewis
at 2016-06-27T09:25
To MicroB: 我的理解是SL網路是學棋譜,RL是自我改良版
Elma avatar
By Elma
at 2016-06-29T14:42
不過SL不真的『用結果評價』,它就是直接學的樣子..
Odelette avatar
By Odelette
at 2016-07-03T23:13
當然可能AlphaGo再選擇"學哪些"的時候參考了結果
Kyle avatar
By Kyle
at 2016-07-04T20:08
如我沒理解錯RL也不參考歷史結果,而是『自己試試看』XD
Charlotte avatar
By Charlotte
at 2016-07-08T17:50
可是如果zen不會打劫 那餵再多棋譜 他還是會避開
Hedda avatar
By Hedda
at 2016-07-10T18:36
棋譜應該不是來自Zen,沒有提到(或是我漏看? orz)
Franklin avatar
By Franklin
at 2016-07-15T00:19
有提到來自KGS,我猜應該是真人棋譜
Jacky avatar
By Jacky
at 2016-07-17T10:58
所以SL網路會餵所有李世石的棋譜?
Lucy avatar
By Lucy
at 2016-07-19T03:02
恩 用"自己試試看"的結果來評價哪個地方該厚該薄 蠻有意思
Harry avatar
By Harry
at 2016-07-20T15:45
的 之前有人說讓兩個一段互下幾千盤可以升到兩段 但升不到
Zenobia avatar
By Zenobia
at 2016-07-25T10:32
上段 看來那是下的不夠 XD 互下幾千萬盤然後有系統的評價
就上九段了 XD
Una avatar
By Una
at 2016-07-29T02:16
那兩個兩段互下幾千盤可以升到三段嗎XD
Jack avatar
By Jack
at 2016-07-31T11:40
To aegis43210: 李九段這樣的大師找的到應該就會餵吧
Andy avatar
By Andy
at 2016-08-05T08:19
是說兩個系統升上去後會越來越接近就收斂了
Selena avatar
By Selena
at 2016-08-08T21:09
不過我認為AlphaGo不太可能專門為了李九段去優化多少,
Mason avatar
By Mason
at 2016-08-09T00:42
我比較傾向這次AlphaGo根本不知道它在跟李九段下棋,理由
和關於劫爭的討論一樣-AlphaGo已經自成一體了XD
Quanna avatar
By Quanna
at 2016-08-09T03:59
不過看來九段和一段的棋感差距 可以用"勤能補拙"來彌補
Brianna avatar
By Brianna
at 2016-08-12T10:19
只要多試幾次 然後每次都記下來不犯一樣的錯(輸給另一個AG
Gilbert avatar
By Gilbert
at 2016-08-13T07:07
五級的一方通行殺兩萬個妹妹可以昇到六級.(錯棚
Belly avatar
By Belly
at 2016-08-16T04:42
的譜) 只懂一段的厚薄 大局觀 也可以贏九段的大局觀
Yedda avatar
By Yedda
at 2016-08-19T04:04
推你,明顯有做過功課發問!
Agatha avatar
By Agatha
at 2016-08-20T10:17
重點是小李為什麼不走打劫拚搏的這種氣勢 沒有出來
能不能贏當然不知道 但選擇安樂死實在是失望
Xanthe avatar
By Xanthe
at 2016-08-23T04:57
打入黑地那邊的劫爭彈性 和後來的夾碰劫爭的下法沒有
Jake avatar
By Jake
at 2016-08-28T03:52
下出來 難免讓職業選手感到不解
Susan avatar
By Susan
at 2016-08-28T09:41
對了,可以問大家討論1.的那個勝率正常嗎?
對KGS業餘六段的Crazystone AI勝率77%那個
Ida avatar
By Ida
at 2016-08-28T13:52
(讓四子,忘了講XD)
Charlie avatar
By Charlie
at 2016-08-29T21:18
那是以前吧, 現在可能更高
Mary avatar
By Mary
at 2016-09-01T18:33
嗯,就是說我沒有概念要怎樣程度的職業棋士可以有77%的
Andy avatar
By Andy
at 2016-09-03T17:43
勝率讓四子贏KGS業餘六段,主要想估計AG有沒有遇強則強
Linda avatar
By Linda
at 2016-09-04T13:50
不過像你說的,也不知道這段時間AG進化了多少..
Ida avatar
By Ida
at 2016-09-09T03:13
大量對戰時, AI 的 bug 點會被抓
所以總量要考慮
Ivy avatar
By Ivy
at 2016-09-11T08:26
100盤 77勝 和 10000盤 7700 勝不太一樣
萬盤case 後面搞不好是5000盤連勝
Adele avatar
By Adele
at 2016-09-15T11:26
問問darkseer支不支持Thomas Hales這些人的工作?
早點把AI推到形式數學去。
Heather avatar
By Heather
at 2016-09-17T07:39
我...口頭支持orz
Anonymous avatar
By Anonymous
at 2016-09-21T06:03
Hales 對的話 欠他一個 fields 啊
Frederica avatar
By Frederica
at 2016-09-25T04:44
現在才看懂SL策略網路那一節有兩個部分orz,趕快改..

這兩盤棋 沒人會比李世石做得好

Daph Bay avatar
By Daph Bay
at 2016-03-11T13:03
簡體原版網址 http://sports.sina.com.cn/go/2016-03-11/doc-ifxqhmve9080655.shtml 李(吉吉):這兩盤棋 沒人會比李世石做得更好! 比他的第一篇分析對我而言 更有說服力 文長且有附圖 請親自移駕觀賞 - ...

AlphaGO掀起圍棋界的大波瀾

Irma avatar
By Irma
at 2016-03-11T12:52
先說明我只是圍棋的門外漢,程式也只是略懂, 心中有些感想想分享,版主若覺得不適麻煩幫刪掉,感謝! 如果今天是一位學棋不過四五年十歲的天才兒童, 半年前挑戰樊麾贏了,半年後挑戰李世石下出一堆怪招還是贏了, 人們會如何看待這位十歲天才與圍棋的未來呢? 我想大多數人會更期待他能下出怎樣的棋而不是擔 ...

貼目問題

Victoria avatar
By Victoria
at 2016-03-11T12:38
小弟弱弱的魯魯 是個只懂棋靈王的魯魯 可是還是想跟大家討論一下,小弟有個不成熟想法, 以前到現在大家最常算的是,黑棋必須貼目多少問題 因為黑棋有先手優勢,容易占地,所以不貼目勝率自然高 但是我想法是,那能不能反過來限制黑棋第一手只能下特定地方,來讓他這個優勢消失? 例如如果一開始下邊角,自然容易圍 ...

李世石 VS AlphaGo 第二局看法

Wallis avatar
By Wallis
at 2016-03-11T12:37
※ 引述《Nicher (rehciN)》之銘言: : ※ 引述《neutrino (十年一夢)》之銘言: : : 我其實有些不懂, : : 為何很多評論會覺得AlphaGo的出乎意料的著手都被認為是and#34;電腦才有的想法and#34; : : 在那當下我反倒是覺得AlphaGo出乎意料的and#34; ...

這兩天李vsAG的一點心得(非一日棋迷)

Dinah avatar
By Dinah
at 2016-03-11T12:31
大家好 小弟弱弱棋協5D 這兩天看下來,頓時覺得圍棋版烏煙瘴氣 剛好身邊也有不懂圍棋的朋友談論這件事 於是興起了發文的想法 圍棋版的主旨就是讓大家交流圍棋是吧 但是這兩天湧入很多一日棋迷,我感覺很多文章根本不適合在這邊出現 你想討論演算法,討論AG下棋的原理法則 我想PTT應該有類似的板可以討論 你想討論 ...