黃博士今日演講內容 - 圍棋

Table of Contents


簡單提一下今天黃博士演講重點

演講標題是深度學習與強化學習的勝利

認為zero是最佳的deepmind電腦圍棋這部分最佳的收尾

黃博士對於一開始擊敗樊輝就發nature有些不解,我們要挑戰李世石結果把所有技術都透漏給所有人,但deepmind的想法是我們需要分享技術讓世界一起進步

google對alphago團隊最大幫助是TPU

認為Master已經完美解決李世石第四盤的bug,解決方式與神經網路架構(dual res)和訓練都有關,並且以他多年的電腦圍棋經驗與測試過後,認為不會再出現此類bug

Master是20block res-net,並改進了training pipeline和MCTS,也解決了模仿棋和循環劫(沒說怎麼做),能讓lee版本3子並超過50%勝率

master年初60連勝每一步4-8秒,在台灣,吃泡麵配黑松沙士下的,是黃博士積極鼓吹要出來測試,Hassabis說要低調並使用韓國國籍,一開始不得透漏身分

Hassabis說要挑強的下,但是第一天職業沒人願意跟0勝0負的下,都被拒絕,等到第一天10連勝之後第二天開始拒絕別人邀請

master下的時候可以看勝率隨步數的圖,基本上50手之前斜率很高並且確立極大優勢,唯一例外是柯潔烏鎮第二盤

4月的時候已經有zero,但由於要發nature所以不能拿來下

當初開發zero沒預料到會超過master

master年初開發完畢之後,zero由其他人負責開發,黃博士繼續想方法增強master

zero不是放在那邊增強學習就會變強,中間需要做很多優化,否則有bug不會進步,其中一個重大bug發生在第三天(紀錄人表示:所以看來絕藝有得忙了

AntiAlphaGo,不是像大家想的那樣有新的技術,就是左右互搏,也不是gan(生成式對抗網路)

master是否被人類棋譜拖累?答案是不確定,因為master訓練時間較短,deepmimd也沒有針對同等條件去比較。

以上,有其他疏漏請其他人補充,並歡迎轉載,但請說明作者是Hetercompute

-----
Sent from JPTT on my Samsung SM-A710Y.

--

All Comments

Hazel avatarHazel2017-11-13
第三天?這麼巧就是達到李世石版的那時候?
Catherine avatarCatherine2017-11-16
btw, AGZ 不會 open source.
Jacob avatarJacob2017-11-20
嗚嗚 好想聽現場
George avatarGeorge2017-11-25
這篇訪問算是證實了DZG作者的猜想,master是用比較小
的網路才輸給zero,master跟zero在相同網路下并沒有
明顯的優劣
Dora avatarDora2017-11-27
上面講錯,應該說master跟zero在相同條件下誰優誰劣
還未知
Irma avatarIrma2017-11-28
另外我有個疑問,記得當初有提到,master只計算到20步
,這個20步跟resnet的20-block有關係嗎?
David avatarDavid2017-12-02
Tom avatarTom2017-12-04
柯潔也真的是夠神了
David avatarDavid2017-12-06
很難說是證實了 其實Aja在被問的時候不是這樣說的 他只是說
Edith avatarEdith2017-12-07
不能因為AGZ的強大 就說人類的知識本質沒有用處 只能說透過
Caitlin avatarCaitlin2017-12-08
Zero可以真的"從零學會", 但他們不能評估這兩者用同樣的計
算量 Master 不會輸 因為在回答過程中aja 不止一次說他們非
Joe avatarJoe2017-12-13
常驚訝Zero的訓練結果(本來以為是根本不可能贏過Master,沒
想到很快就碾壓了)
Tracy avatarTracy2017-12-16
在台灣,吃泡麵配黑松沙士下的XDD
Frederic avatarFrederic2017-12-17
太辛苦了(算沈迷嗎?) 都沒有出門或自己煮好好的吃個飯
Jessica avatarJessica2017-12-19
zero的演算法也是一直優化才比master強
Dorothy avatarDorothy2017-12-22
那個人不看好騰訊能完整複製zero的棋力了
Iris avatarIris2017-12-24
AlphaGO與其說是科學上的突破,不如說是工程上的奇蹟
Ida avatarIda2017-12-26
看硬體怎麼進步吧,硬體追得上的話說不定20年後變大學
機器學習的學期大專題
Lucy avatarLucy2017-12-28
AlphaGo Zero 只用了三天,就走過人類幾千年圍棋研究的歷程
Connor avatarConnor2017-12-30
很佩服deepmind分享知識的作法
Yedda avatarYedda2018-01-01
所以master就已經只用一個神經網路了嗎?
Callum avatarCallum2018-01-02
對,只用Res-Net
Gary avatarGary2018-01-07
我很早就提,我們不能只看三天很短,但三天中,它進入高品質
Hamiltion avatarHamiltion2018-01-07
的棋局,比人類幾千年來的高品質,其實應該是不知多多少倍
Carolina Franco avatarCarolina Franco2018-01-08
這也難說,人類不在對弈的時候, 有些人腦中依然在運算這些
只是沒有下出來, 或者下出來沒有留下棋譜
Bethany avatarBethany2018-01-12
只能說人類的資訊整合能力與計算能力遠輸於AG
Madame avatarMadame2018-01-14
三天看來很短 但那已經累積上百萬盤的樣本了
Jacky avatarJacky2018-01-15
沒有google這種資本 一般開發者根本不可能這樣設計
Sarah avatarSarah2018-01-17
Zero用的設備就像進入精神時光屋一樣,1700年用40天達成
Wallis avatarWallis2018-01-21
人類歷史上所有棋局加起來也不過零頭吧 質也一定輸
Christine avatarChristine2018-01-25
主要是人類並不是一個整體,有大量的運算資源被浪費在各自
Kelly avatarKelly2018-01-25
算各自的東西,再來就是下完一局棋以評估所花時間太久
Harry avatarHarry2018-01-29
人類是各自學 流派又不交流
Vanessa avatarVanessa2018-01-31
alphago lee是13block,Master是20block
zero則有20block和40block兩種版本