黃士傑返台分享AlphaGo Zero開發過程 - 圍棋

Jacob avatar
By Jacob
at 2017-11-11T10:22

Table of Contents


原文恕刪


我相信原po是真心很認真的想討論

也很歡這討論的風氣

但是,原po的問題卻得到一個幾乎大家圍攻的結果

我來舉個例子說明為什麼大家會覺得原po在鑽牛角尖好了



今天我們把問題換成排序

假設有一群剛發明電腦的工程師,現在在建構最初的演算法

他們試圖解決排書櫃的問題

於是他們先試著模仿人類的排書的方法,比方說排 「4, 5, 6, 1, 3, 2」

的時候,人類會把 4,5,6 一起處理 (回憶一下人是怎麼處理書架上的書的)

於是他們弄出了一套演算法,但是效能不怎樣

對應圍棋AI的例子,傳統的Zen,CrazyStone 就是這樣的算法


然後突然有一個天材,發現了 Bubble Sort

一個電腦按自己的方式排,又借鏡了一部份人類排序的經驗(一直把小的往前丟)的算法

相當於 AlphaGo 出現了



最後,另一群天材把這個演算法優化成 Quick Sort

一個人類在現實中排書絕對不可能用到的演算法

相當於 AlphaGo Zero (小朋友學棋再怎樣也不會教他從亂丟開始,對吧?)

發了篇論文說明他們整個演算法共同的地方只有一段「交換位子」的函式

其它都不一樣

換成 AlphaGo ,就是告訴你,我都是用機器學習作方法,但是其它都不一樣


然後原po現在的質疑在一般人的眼中看起來像是:

Quick Sort還是用到了人類排序書櫃的經驗!

當然大家會覺得莫名

有人會有 Quick Sort 來排書架嗎?


大概是這樣

--
Tags: 圍棋

All Comments

Carolina Franco avatar
By Carolina Franco
at 2017-11-16T06:55
我覺的是他一開始舉了一個錯誤的例子(棋局停止),突
顯他不了解圍棋規則,導致後續討論就充滿了火藥味了
進而讓他的原意失焦了
Xanthe avatar
By Xanthe
at 2017-11-20T23:25
風向就是從那個棋子不能自殺的時候被帶起的QQ
Elvira avatar
By Elvira
at 2017-11-21T05:30
我真的有用quick sort排過一大堆亂掉的書...
不過大概不影響你的舉例啦
Ula avatar
By Ula
at 2017-11-23T00:00
人類可以學sort,但是不能學神經網路,有種來把
Lily avatar
By Lily
at 2017-11-24T23:50
神經網路背起來啊
Oscar avatar
By Oscar
at 2017-11-27T13:36
XD 這舉例好傳神耶 但原po還是不懂quicksort阿
Ula avatar
By Ula
at 2017-11-28T03:59
t大都說數學統計出身會learning,說他不會QS會不會
太侮辱人
Noah avatar
By Noah
at 2017-11-29T19:43
人類用Quick Sort幹嘛啦XDDD只會比較煩而已
Donna avatar
By Donna
at 2017-12-02T17:31
譬喻不錯 但原po懷疑是有理也沒錯
Daph Bay avatar
By Daph Bay
at 2017-12-04T11:31
quicksort是啥…是否可以解釋一下
Faithe avatar
By Faithe
at 2017-12-09T07:10
隨機取中點 小丟左大丟右 遞迴到每區剩一個
Tracy avatar
By Tracy
at 2017-12-13T09:44
人類比較偏向insert或select不過不影響你的舉例XD
Zanna avatar
By Zanna
at 2017-12-14T09:35
推,好比煉金術士和化學家的關係,化學家有參考煉金術士
Joe avatar
By Joe
at 2017-12-17T19:27
的實驗結果,用完全不同的一套理論體系去篩選、解釋
Dorothy avatar
By Dorothy
at 2017-12-18T08:20
最終產生新的一套科學事實,裡面雖有部分認定煉金術士經驗
Elma avatar
By Elma
at 2017-12-22T15:43
也符合科學事實,但這顯然跟認同煉金術士的經驗是兩回事
Mason avatar
By Mason
at 2017-12-25T23:47
板主舉的例子,從 Bubble Sort 變成 Quick Sort, 是屬於我
Elizabeth avatar
By Elizabeth
at 2017-12-29T10:21
說的模型不同. 而不是 master 與 Zero 的最大差別在參數優
Jacob avatar
By Jacob
at 2018-01-01T14:24
參數優化, Zero 不同於 master, 沒用到人類棋譜,這沒爭議
Lauren avatar
By Lauren
at 2018-01-02T08:25
但在模型上, 並沒有太大的改變
我要質疑的是, 這模型是否用到人類圍棋知識
Adele avatar
By Adele
at 2018-01-05T17:51
模型差別很大啊
Zanna avatar
By Zanna
at 2018-01-05T20:31
我可不可以問一下tl一直要追究這個問題的原因是甚麼?
Daniel avatar
By Daniel
at 2018-01-08T17:28
Zero只用一個policy network這樣模型的差別還不夠明顯嗎?
Zora avatar
By Zora
at 2018-01-11T07:24
master哪有跟zero模型天差地遠
Emily avatar
By Emily
at 2018-01-16T04:08
差rollout和一開始是監督學習而已,神經網路一樣
Jessica avatar
By Jessica
at 2018-01-18T07:13
你搞錯了吧,master就已經合併了
Xanthe avatar
By Xanthe
at 2018-01-20T18:38
其實主要差別只有訓練吃的棋譜不一樣
Anthony avatar
By Anthony
at 2018-01-22T05:59
一樣的 他們只是選用了不同參數 給了不同資源 因為他們想
Olive avatar
By Olive
at 2018-01-23T19:10
試試看Master的模型能不能通用 但是我覺得實作的內部可能還
是差很多 因為如果事情只是rollout跟開始的監督部分 就不會
需要請aja把有內建圍棋知識的code拿掉了 想必那邊有很多細
Eartha avatar
By Eartha
at 2018-01-27T18:03
微的優化是他們沒講(也不開源,所以應該就是不會講了)
Rachel avatar
By Rachel
at 2018-01-29T20:13
意思是這部份反正他不開源,只能相信Deepmind的宣佈
再吵也沒意義,對吧?
Tristan Cohan avatar
By Tristan Cohan
at 2018-01-31T09:34
就算他是先射箭再畫靶,你也沒辦法啊XD
Hamiltion avatar
By Hamiltion
at 2018-02-02T01:10
這個其實有個方法 就是別人照著DM的paper實作 做不出來攻擊
他們, 但目前沒有太多公司有這麼強的運算資源做這種驗證...
Edward Lewis avatar
By Edward Lewis
at 2018-02-02T21:57
大概只有騰訊出的起 願不願意花就難講了
google自己搞TPU就先省一大筆
Audriana avatar
By Audriana
at 2018-02-07T06:28
光訓練一個20block res-net,沒百張1080ti就免談...
Madame avatar
By Madame
at 2018-02-08T16:18
master的時候還是有兩個網路啦 zero才只有一個
Skylar Davis avatar
By Skylar Davis
at 2018-02-12T17:45
樓上可參考HeterCompute的筆記:[情報] 黃博士今日演講內容
Kumar avatar
By Kumar
at 2018-02-16T10:25
感謝,確實論文也是這樣寫的沒錯
Isabella avatar
By Isabella
at 2018-02-20T05:45
我發現搞錯的不止我一個,稍微得到一點安慰XD
Edward Lewis avatar
By Edward Lewis
at 2018-02-23T00:22
XDD
Leila avatar
By Leila
at 2018-02-25T16:31
其實我不懂質疑論文標題有甚麼意義......
Heather avatar
By Heather
at 2018-02-28T21:04
當然是可以質疑拉...... 頂多就是用字不精確罷了
Aaliyah avatar
By Aaliyah
at 2018-03-05T12:59
給人家的感覺就是好像網路筆戰抓錯字一樣......

黃士傑返台分享AlphaGo Zero開發過程

Suhail Hany avatar
By Suhail Hany
at 2017-11-11T03:13
※ 引述《capita (小明)》之銘言: : 改用 ResNet 因為是最當紅的神經網路模型,大家都說好,到處拿第一, : 只要是做機器學習,不改來用看看才奇怪,這跟圍棋一點關係也沒有。 : 或是三維的圍棋,都可以照樣修改後讓電腦去自行修煉成大師。 : 在一些細部結構上,DeepMind 也試過不同的參數 ...

三個你不該買zen7的理由

Catherine avatar
By Catherine
at 2017-11-10T21:43
我買到了zen7,但是我非常不滿意他的效果, 在此整理三個你不應該選擇購買zen7的理由: 1.棋力不強 基本上zen7就是跟現在的三大免費軟體(AQ Leela rn)差不多強, 這三個還會不定期更新,可能幾個月後就大幅超車zen7了。 死活也不強, 列一下前幾天的cgi妙手局面(cgi vs ...

Leela 0.11.0 & Leela Zero

Liam avatar
By Liam
at 2017-11-10T14:28
出一陣子了,不過看來還沒人貼過,就貼一下 來源 https://www.sjeng.org/leela.html Windows版載點 https://www.sjeng.org/dl/setupLeela0110.exe 另外有趣的地方是,他們也開始了leela-zero的計劃 https://gi ...

黃博士今日演講內容

Frederica avatar
By Frederica
at 2017-11-10T13:23
簡單提一下今天黃博士演講重點 演講標題是深度學習與強化學習的勝利 認為zero是最佳的deepmind電腦圍棋這部分最佳的收尾 黃博士對於一開始擊敗樊輝就發nature有些不解,我們要挑戰李世石結果把所有技術都透漏給所有人,但deepmind的想法是我們需要分享技術讓世界一起進步 google對alp ...

如果有機會問黃士傑博士問題

Frederica avatar
By Frederica
at 2017-11-10T09:19
你會想要問什麼? 圍棋 AlphaGo相關的問題 歡迎留言討論 我想收集些題目 感謝 - ...