黃博士今日演講內容 - 圍棋

Frederica avatar
By Frederica
at 2017-11-10T13:23

Table of Contents


簡單提一下今天黃博士演講重點

演講標題是深度學習與強化學習的勝利

認為zero是最佳的deepmind電腦圍棋這部分最佳的收尾

黃博士對於一開始擊敗樊輝就發nature有些不解,我們要挑戰李世石結果把所有技術都透漏給所有人,但deepmind的想法是我們需要分享技術讓世界一起進步

google對alphago團隊最大幫助是TPU

認為Master已經完美解決李世石第四盤的bug,解決方式與神經網路架構(dual res)和訓練都有關,並且以他多年的電腦圍棋經驗與測試過後,認為不會再出現此類bug

Master是20block res-net,並改進了training pipeline和MCTS,也解決了模仿棋和循環劫(沒說怎麼做),能讓lee版本3子並超過50%勝率

master年初60連勝每一步4-8秒,在台灣,吃泡麵配黑松沙士下的,是黃博士積極鼓吹要出來測試,Hassabis說要低調並使用韓國國籍,一開始不得透漏身分

Hassabis說要挑強的下,但是第一天職業沒人願意跟0勝0負的下,都被拒絕,等到第一天10連勝之後第二天開始拒絕別人邀請

master下的時候可以看勝率隨步數的圖,基本上50手之前斜率很高並且確立極大優勢,唯一例外是柯潔烏鎮第二盤

4月的時候已經有zero,但由於要發nature所以不能拿來下

當初開發zero沒預料到會超過master

master年初開發完畢之後,zero由其他人負責開發,黃博士繼續想方法增強master

zero不是放在那邊增強學習就會變強,中間需要做很多優化,否則有bug不會進步,其中一個重大bug發生在第三天(紀錄人表示:所以看來絕藝有得忙了

AntiAlphaGo,不是像大家想的那樣有新的技術,就是左右互搏,也不是gan(生成式對抗網路)

master是否被人類棋譜拖累?答案是不確定,因為master訓練時間較短,deepmimd也沒有針對同等條件去比較。

以上,有其他疏漏請其他人補充,並歡迎轉載,但請說明作者是Hetercompute

-----
Sent from JPTT on my Samsung SM-A710Y.

--
Tags: 圍棋

All Comments

Hazel avatar
By Hazel
at 2017-11-13T01:29
第三天?這麼巧就是達到李世石版的那時候?
Catherine avatar
By Catherine
at 2017-11-16T09:20
btw, AGZ 不會 open source.
Jacob avatar
By Jacob
at 2017-11-20T16:59
嗚嗚 好想聽現場
George avatar
By George
at 2017-11-25T07:23
這篇訪問算是證實了DZG作者的猜想,master是用比較小
的網路才輸給zero,master跟zero在相同網路下并沒有
明顯的優劣
Dora avatar
By Dora
at 2017-11-27T12:31
上面講錯,應該說master跟zero在相同條件下誰優誰劣
還未知
Irma avatar
By Irma
at 2017-11-28T14:25
另外我有個疑問,記得當初有提到,master只計算到20步
,這個20步跟resnet的20-block有關係嗎?
David avatar
By David
at 2017-12-02T23:58
Tom avatar
By Tom
at 2017-12-04T01:21
柯潔也真的是夠神了
David avatar
By David
at 2017-12-06T18:40
很難說是證實了 其實Aja在被問的時候不是這樣說的 他只是說
Edith avatar
By Edith
at 2017-12-07T06:56
不能因為AGZ的強大 就說人類的知識本質沒有用處 只能說透過
Caitlin avatar
By Caitlin
at 2017-12-08T08:40
Zero可以真的"從零學會", 但他們不能評估這兩者用同樣的計
算量 Master 不會輸 因為在回答過程中aja 不止一次說他們非
Joe avatar
By Joe
at 2017-12-13T06:36
常驚訝Zero的訓練結果(本來以為是根本不可能贏過Master,沒
想到很快就碾壓了)
Tracy avatar
By Tracy
at 2017-12-16T18:56
在台灣,吃泡麵配黑松沙士下的XDD
Frederic avatar
By Frederic
at 2017-12-17T02:22
太辛苦了(算沈迷嗎?) 都沒有出門或自己煮好好的吃個飯
Jessica avatar
By Jessica
at 2017-12-19T07:38
zero的演算法也是一直優化才比master強
Dorothy avatar
By Dorothy
at 2017-12-22T19:24
那個人不看好騰訊能完整複製zero的棋力了
Iris avatar
By Iris
at 2017-12-24T00:03
AlphaGO與其說是科學上的突破,不如說是工程上的奇蹟
Ida avatar
By Ida
at 2017-12-26T08:42
看硬體怎麼進步吧,硬體追得上的話說不定20年後變大學
機器學習的學期大專題
Lucy avatar
By Lucy
at 2017-12-28T04:46
AlphaGo Zero 只用了三天,就走過人類幾千年圍棋研究的歷程
Connor avatar
By Connor
at 2017-12-30T11:50
很佩服deepmind分享知識的作法
Yedda avatar
By Yedda
at 2018-01-01T11:38
所以master就已經只用一個神經網路了嗎?
Callum avatar
By Callum
at 2018-01-02T01:31
對,只用Res-Net
Gary avatar
By Gary
at 2018-01-07T00:42
我很早就提,我們不能只看三天很短,但三天中,它進入高品質
Hamiltion avatar
By Hamiltion
at 2018-01-07T09:16
的棋局,比人類幾千年來的高品質,其實應該是不知多多少倍
Carolina Franco avatar
By Carolina Franco
at 2018-01-08T11:58
這也難說,人類不在對弈的時候, 有些人腦中依然在運算這些
只是沒有下出來, 或者下出來沒有留下棋譜
Bethany avatar
By Bethany
at 2018-01-12T18:45
只能說人類的資訊整合能力與計算能力遠輸於AG
Madame avatar
By Madame
at 2018-01-14T13:21
三天看來很短 但那已經累積上百萬盤的樣本了
Jacky avatar
By Jacky
at 2018-01-15T10:53
沒有google這種資本 一般開發者根本不可能這樣設計
Sarah avatar
By Sarah
at 2018-01-17T06:50
Zero用的設備就像進入精神時光屋一樣,1700年用40天達成
Wallis avatar
By Wallis
at 2018-01-21T18:22
人類歷史上所有棋局加起來也不過零頭吧 質也一定輸
Christine avatar
By Christine
at 2018-01-25T15:10
主要是人類並不是一個整體,有大量的運算資源被浪費在各自
Kelly avatar
By Kelly
at 2018-01-25T19:20
算各自的東西,再來就是下完一局棋以評估所花時間太久
Harry avatar
By Harry
at 2018-01-29T11:26
人類是各自學 流派又不交流
Vanessa avatar
By Vanessa
at 2018-01-31T18:51
alphago lee是13block,Master是20block
zero則有20block和40block兩種版本

如果有機會問黃士傑博士問題

Frederica avatar
By Frederica
at 2017-11-10T09:19
你會想要問什麼? 圍棋 AlphaGo相關的問題 歡迎留言討論 我想收集些題目 感謝 - ...

黃士傑返台分享AlphaGo Zero開發過程

Edith avatar
By Edith
at 2017-11-10T01:32
※ 引述《jamesho8743 (加拿大好美)》之銘言: : 所謂人類圍棋知識 是專指人類and#34;在棋盤上and#34;的著手 應法 思考 這叫圍棋知識(不包括基本規則) : AGZ and#34;就算有and#34; 建立在之前 AlphaGo的基礎上 比如說要用 幾層類神經網路 MCTS 或其它 ...

黃士傑返台分享AlphaGo Zero開發過程

Hamiltion avatar
By Hamiltion
at 2017-11-09T23:06
※ 引述《tlchen (台灣加油)》之銘言: : ※ 引述《qweewqq (風一樣的男子)》之銘言: : : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 : 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. : ...

黃士傑返台分享AlphaGo Zero開發過程

Belly avatar
By Belly
at 2017-11-09T14:31
※ 引述《tlchen (台灣加油)》之銘言: : ※ 引述《qweewqq (風一樣的男子)》之銘言: : : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 : 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. : ...

CGI死活強度

Joe avatar
By Joe
at 2017-11-08T21:33
https://i.imgur.com/q5IapNa.jpg 短短讀秒間下出白198妙手做活,隨後黑立即投子 相信連韓國職業六段卞相壹也沒發現可以做活 不然不會棄中間圍殺上方 CGI死活程度AI來講可說是相當強大 - ...