黃博士今日演講內容 - 圍棋

By Frederica
at 2017-11-10T13:23

Table of Contents

簡單提一下今天黃博士演講重點

演講標題是深度學習與強化學習的勝利

認為zero是最佳的deepmind電腦圍棋這部分最佳的收尾

黃博士對於一開始擊敗樊輝就發nature有些不解，我們要挑戰李世石結果把所有技術都透漏給所有人，但deepmind的想法是我們需要分享技術讓世界一起進步

google對alphago團隊最大幫助是TPU

認為Master已經完美解決李世石第四盤的bug，解決方式與神經網路架構(dual res)和訓練都有關，並且以他多年的電腦圍棋經驗與測試過後，認為不會再出現此類bug

Master是20block res-net，並改進了training pipeline和MCTS，也解決了模仿棋和循環劫(沒說怎麼做)，能讓lee版本3子並超過50%勝率

master年初60連勝每一步4-8秒，在台灣，吃泡麵配黑松沙士下的，是黃博士積極鼓吹要出來測試，Hassabis說要低調並使用韓國國籍，一開始不得透漏身分

Hassabis說要挑強的下，但是第一天職業沒人願意跟0勝0負的下，都被拒絕，等到第一天10連勝之後第二天開始拒絕別人邀請

master下的時候可以看勝率隨步數的圖，基本上50手之前斜率很高並且確立極大優勢，唯一例外是柯潔烏鎮第二盤

4月的時候已經有zero，但由於要發nature所以不能拿來下

當初開發zero沒預料到會超過master

master年初開發完畢之後，zero由其他人負責開發，黃博士繼續想方法增強master

zero不是放在那邊增強學習就會變強，中間需要做很多優化，否則有bug不會進步，其中一個重大bug發生在第三天(紀錄人表示：所以看來絕藝有得忙了

AntiAlphaGo，不是像大家想的那樣有新的技術，就是左右互搏，也不是gan(生成式對抗網路)

master是否被人類棋譜拖累？答案是不確定，因為master訓練時間較短，deepmimd也沒有針對同等條件去比較。

以上，有其他疏漏請其他人補充，並歡迎轉載，但請說明作者是Hetercompute

-----
Sent from JPTT on my Samsung SM-A710Y.

--

All Comments

By Hazel
at 2017-11-13T01:29

第三天？這麼巧就是達到李世石版的那時候？

By Catherine
at 2017-11-16T09:20

btw, AGZ 不會 open source.

By Jacob
at 2017-11-20T16:59

嗚嗚好想聽現場

By George
at 2017-11-25T07:23

這篇訪問算是證實了DZG作者的猜想，master是用比較小
的網路才輸給zero，master跟zero在相同網路下并沒有
明顯的優劣

By Dora
at 2017-11-27T12:31

上面講錯，應該說master跟zero在相同條件下誰優誰劣
還未知

By Irma
at 2017-11-28T14:25

另外我有個疑問，記得當初有提到，master只計算到20步
，這個20步跟resnet的20-block有關係嗎?

By David
at 2017-12-02T23:58

推

By Tom
at 2017-12-04T01:21

柯潔也真的是夠神了

By David
at 2017-12-06T18:40

很難說是證實了其實Aja在被問的時候不是這樣說的他只是說

By Edith
at 2017-12-07T06:56

不能因為AGZ的強大就說人類的知識本質沒有用處只能說透過

By Caitlin
at 2017-12-08T08:40

Zero可以真的"從零學會", 但他們不能評估這兩者用同樣的計
算量 Master 不會輸因為在回答過程中aja 不止一次說他們非

By Joe
at 2017-12-13T06:36

常驚訝Zero的訓練結果（本來以為是根本不可能贏過Master,沒
想到很快就碾壓了）

By Tracy
at 2017-12-16T18:56

在台灣，吃泡麵配黑松沙士下的XDD

By Frederic
at 2017-12-17T02:22

太辛苦了(算沈迷嗎?) 都沒有出門或自己煮好好的吃個飯

By Jessica
at 2017-12-19T07:38

zero的演算法也是一直優化才比master強

By Dorothy
at 2017-12-22T19:24

那個人不看好騰訊能完整複製zero的棋力了

By Iris
at 2017-12-24T00:03

AlphaGO與其說是科學上的突破，不如說是工程上的奇蹟

By Ida
at 2017-12-26T08:42

看硬體怎麼進步吧，硬體追得上的話說不定20年後變大學
機器學習的學期大專題

By Heather
at 2017-12-27T21:38

https://www.inside.com.tw/2017/11/10/aja-alphago-zero

By Lucy
at 2017-12-28T04:46

AlphaGo Zero 只用了三天，就走過人類幾千年圍棋研究的歷程

By Connor
at 2017-12-30T11:50

很佩服deepmind分享知識的作法

By Yedda
at 2018-01-01T11:38

所以master就已經只用一個神經網路了嗎?

By Callum
at 2018-01-02T01:31

對，只用Res-Net

By Gary
at 2018-01-07T00:42

我很早就提,我們不能只看三天很短,但三天中,它進入高品質

By Hamiltion
at 2018-01-07T09:16

的棋局,比人類幾千年來的高品質,其實應該是不知多多少倍

By Carolina Franco
at 2018-01-08T11:58

這也難說,人類不在對弈的時候, 有些人腦中依然在運算這些
只是沒有下出來, 或者下出來沒有留下棋譜

By Bethany
at 2018-01-12T18:45

只能說人類的資訊整合能力與計算能力遠輸於AG

By Madame
at 2018-01-14T13:21

三天看來很短但那已經累積上百萬盤的樣本了

By Jacky
at 2018-01-15T10:53

沒有google這種資本一般開發者根本不可能這樣設計

By Sarah
at 2018-01-17T06:50

Zero用的設備就像進入精神時光屋一樣,1700年用40天達成

By Wallis
at 2018-01-21T18:22

人類歷史上所有棋局加起來也不過零頭吧質也一定輸

By Christine
at 2018-01-25T15:10

主要是人類並不是一個整體，有大量的運算資源被浪費在各自

By Kelly
at 2018-01-25T19:20

算各自的東西，再來就是下完一局棋以評估所花時間太久

By Harry
at 2018-01-29T11:26

人類是各自學流派又不交流

By Vanessa
at 2018-01-31T18:51

alphago lee是13block，Master是20block
zero則有20block和40block兩種版本

Related Posts

如果有機會問黃士傑博士問題

By Frederica
at 2017-11-10T09:19

你會想要問什麼？圍棋 AlphaGo相關的問題歡迎留言討論我想收集些題目感謝 - ...

黃士傑返台分享AlphaGo Zero開發過程

By Edith
at 2017-11-10T01:32

※ 引述《jamesho8743 (加拿大好美)》之銘言： : 所謂人類圍棋知識是專指人類and#34;在棋盤上and#34;的著手應法思考這叫圍棋知識(不包括基本規則) : AGZ and#34;就算有and#34; 建立在之前 AlphaGo的基礎上比如說要用幾層類神經網路 MCTS 或其它 ...

黃士傑返台分享AlphaGo Zero開發過程

By Hamiltion
at 2017-11-09T23:06

※ 引述《tlchen (台灣加油)》之銘言： : ※ 引述《qweewqq (風一樣的男子)》之銘言： : : DeepMind指出，他們不使用任何人類知識，AlphaGo Zero用上的是新的「強化學習」方法 : 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. : ...

黃士傑返台分享AlphaGo Zero開發過程

By Belly
at 2017-11-09T14:31

※ 引述《tlchen (台灣加油)》之銘言： : ※ 引述《qweewqq (風一樣的男子)》之銘言： : : DeepMind指出，他們不使用任何人類知識，AlphaGo Zero用上的是新的「強化學習」方法 : 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. : ...

CGI死活強度

By Joe
at 2017-11-08T21:33

https://i.imgur.com/q5IapNa.jpg 短短讀秒間下出白198妙手做活，隨後黑立即投子相信連韓國職業六段卞相壹也沒發現可以做活不然不會棄中間圍殺上方 CGI死活程度AI來講可說是相當強大 - ...