中韓資料互通養虎為患李世石評新Alphago - 圍棋

By Sandy
at 2017-01-09T21:34

Table of Contents

中韓對弈資料互通養虎為患李世石評新AlphaGo

新浪體育訊　　9日，韓tygem網對韓國新聞界爆料說，“和谷歌deepmind團隊一直保持緊
密的合作關係，為AlphaGo的發展不遺餘力提供了全面的支援。”即AlphaGo深度學習的“
人類棋譜”主要採集于韓tygem對弈，而這款對弈平臺與中國實現了資料互通，柯潔、范
廷鈺等中國職業棋手長年在此平臺與朴廷桓等韓國職業交流，為伺服器積累了大量的人類
頂級棋譜。AlphaGo實際去年3月人機大戰前就已“潛伏”在tygem平臺覓食，而tygem平臺
最終起到了“養虎為患”的作用。

　　去年12月16日，韓tygem新事業團隊接到谷歌deepmind公司黃士傑博士的電子郵件，
要求“註冊韓國國籍的帳號Magister（P），以測試新版AlphaGo”。黃士傑同時要求刪除
表明是英國籍的帳號“deepmind”，這一帳號是去年3月“人機大戰”前“潛伏”tygem平
臺的AlphaGo的馬甲，而且被明眼的棋友戳穿。而“deepmind”這一帳號的戰績也是不盡
人意，也沒有引起任何轟動效果。

　　Magister（P）去年12月29日至31日在tygem平臺出沒，每日十盤連克中韓頂尖棋手取
得三十連勝，旋即AlphaGo又穿上“Master”的馬甲出現在中國“野狐”平臺連戰三天取
得三十連勝，在中韓兩大對弈平臺橫掃人類職業棋手取得了“60：0”的戰績。

　去年3月13日的“人機大戰”第四局，李世石靠“神之一手”戰勝了AlphaGo，這一局很
有可能成為人類面對AlphaGo在正式比賽上取得的唯一一盤勝局。李世石去年成為韓國棋
壇的“獎金王”，一年賺了8億韓元。年關之際，李世石又做出驚人舉動，向他的家鄉新
安郡的福利機構捐獻了5000萬韓元。李世石還指定“專款專用”，為飛禽面（飛禽島）
727口的低收入孤寡老人和殘疾人，100口低收入單親家庭和“多文化家庭（異國婚姻）”
置辦過冬的棉衣和被褥。

　　李世石也關注新版AlphaGo在網路對弈平臺橫掃中韓頂尖棋手的表現。李世石評價說
：“去年3月和我較量的AlphaGo，進入讀秒就會出現一些不穩，現在這一部分得到補強了
。現在職業棋手和新版AlphaGo在相同讀秒條件下比賽，就沒有勝算了。AlphaGo是機器，
所以不會出現失誤，但人類棋手在讀秒催促下很容易出現失誤。所以AlphaGo讀秒，而人
類棋手有2~3小時相對充裕的比賽用時的情況下比賽，那麼五盤中有機會贏一盤。”

　　此前，李世石在接受採訪時表態“支持柯潔至少贏兩局”。李世石說：“超越國籍，
我想支援後輩棋手柯潔。”

　　藍烈

http://sports.sina.com.cn/go/2017-01-09/doc-ifxzkfuh6428301.shtml

--

Tags: 圍棋

All Comments

By Yedda
at 2017-01-11T06:33

內文錯很多吧... deepmind帳號是黃博士自己下的所以
才沒有很驚人

By Andy
at 2017-01-13T05:52

養虎為患這鳥結論

By Margaret
at 2017-01-18T03:51

是2個都有在下

By Linda
at 2017-01-19T19:23

黃博士是用deepmind很久不過後面幾場似乎有用阿法狗測試

By Queena
at 2017-01-22T10:45

不過黃沒出來闢謠也沒人去問就是了

By Zora
at 2017-01-24T14:06

AlphaGO：人類頂級棋譜？ZZZzzz

By Yedda
at 2017-01-28T10:31

ㄏㄏ又有人開始消費了

By Victoria
at 2017-01-31T13:42

推捐錢給弱勢,推支持後輩柯傑~

By Regina
at 2017-02-04T18:10

新版早就不吃人類棋譜自己練了，這篇還是算了吧

By Oscar
at 2017-02-05T20:35

"AlphaGO這麼強是吸收了我們的頂級棋譜"

By Genevieve
at 2017-02-09T13:01

「新版是沒吃過人類棋譜的版本」<=雖然很多人都這樣猜

By Ida
at 2017-02-10T01:42

了但官方有宣布確認過嗎？
master就是當初說要嘗試完全不吸收棋譜自己練的版本?

By Callum
at 2017-02-14T13:17

這事去年老闆和 Aja 都講過... 時間這麼長應該是做完了
從理論上來看初始階段餵的人類棋譜的確可能變成污染 @@

By Elma
at 2017-02-18T10:53

還在人類棋譜就訓練資料來看根本連0.1%的比例都沒有
輸了就開始各種找理由也太好笑

By Hedda
at 2017-02-21T20:11

我個人認為V25是V18練上去的啦

By Rae
at 2017-02-23T19:51

反正就"應該"做完了 "大概"是了 "這些招法沒見過"所以

By Kyle
at 2017-02-27T03:56

是自我版根本都是猜的

By Ursula
at 2017-03-01T22:33

看了AlphaGO的下棋評估方式就會發現要做純淨版絕對不是

By Audriana
at 2017-03-02T21:41

那麼簡單光是"何謂勝利" 你沒有樣板給電腦看也說不清

By Ethan
at 2017-03-06T07:40

光是AG自我對奕因為勝率而修正落子點形成沒看過的下法

By Tracy
at 2017-03-11T01:50

就是非常常見的事隨著時間人類譜的影響降低也可預見

By Charlotte
at 2017-03-13T08:11

電腦判斷何謂勝利還真的不用樣板就做得到，只要會填子就好

By Robert
at 2017-03-14T21:59

不是最後的勝利啦是"某局面下"的勝負判斷

By Agnes
at 2017-03-18T19:35

https://www.zhihu.com/question/41238749 如果這科普是

By Yedda
at 2017-03-19T02:34

正確的話因為自我無限對奕的方法 AG以前的AI就用過了

By Jacky
at 2017-03-22T12:03

效果都沒有AG的好被殺得不要不要的假設拿掉人類譜
AG就只剩下蒙特卡羅跟現在AG的其他手下敗將沒有分別

By Ingrid
at 2017-03-26T09:00

拿掉人類譜還有兩張空白有待訓練的網路

By Elizabeth
at 2017-03-30T10:07

那要這麼說 AG就只是錢砸出來的誰的電腦連得多就越猛

By Freda
at 2017-04-03T19:04

錢是必要條件，不是充分條件

By Hardy
at 2017-04-07T19:29

我的意思是AG目前的高度人類譜佔了一半抽掉了=頓失五

By Hedwig
at 2017-04-08T08:12

成功一年時間大概跟刑天等等齊頭

By Edward Lewis
at 2017-04-10T08:49

我現在沒在討論master有沒有抽掉人類譜，這點等他們自己公
佈就好，我只是個看熱鬧的。剛開始我是不了解你怎麼推論出
沒有抽掉的，現在比較明白了

By Victoria
at 2017-04-10T23:10

其實我本來也是覺得自我對奕好像很厲害可是看過AG的下

By Megan
at 2017-04-12T15:39

有人覺得圍棋老師讓你棋力從30級變業餘初段是在污染

By Ina
at 2017-04-15T18:01

棋介紹後才知道原來並不是我想的那樣

By Victoria
at 2017-04-17T22:42

你的棋藝？

By Bethany
at 2017-04-18T02:03

看起來上面幾位並沒有弄懂人類棋譜的作用是什麼

By William
at 2017-04-22T01:58

常常被拿來濫用的"左右互搏"也一樣和一般人想像兩碼事

By Leila
at 2017-04-22T04:28

AlphaGo 厲害的地方是把舊有的兩套方法湊在一起

By Frederica
at 2017-04-26T10:00

moonlind 好像以為人類譜很重要? 根本不是那麼回事

By Donna
at 2017-04-28T05:11

拿人類譜去餵 DCNN, 結果會是讓它的反應比較接近人類

By Olga
at 2017-05-01T05:10

網棋通常沒有細算離最佳解的距離應該會比它自己算還遠

By Dinah
at 2017-05-01T13:14

就拿上面的疑問來講 DCNN並不需要知道"何謂勝利"

By Franklin
at 2017-05-04T04:34

它只負責給出選擇 MCTS 自己會驗算, 各自做自己擅長的事

By Selena
at 2017-05-08T21:37

把舊有的兩種方法湊在一起對啊其中一邊是餵譜餵出來的
另一邊是亂走走出來的兩者合一發現能屌打以前亂走版的

By Thomas
at 2017-05-10T15:40

現在假設餵譜那邊用的都是亂走出來的譜(純淨) 那不就等

By Selena
at 2017-05-13T08:36

於從頭到尾都是亂走版? 這樣還能達到AG的高度嗎

By Edith
at 2017-05-17T07:17

理論上可以，只是要訓練更久。

By Selena
at 2017-05-19T02:23

究竟是多久其實根據我貼的那個棋局越靠前吃譜的份量

By Donna
at 2017-05-19T06:48

只是自己亂下，想要無師自通，基本上是浪費時間

By Anthony
at 2017-05-20T12:23

越重不正表示棋局越靠前經驗法則越重要而電腦要怎麼

By Jessica
at 2017-05-21T00:45

累計越難算的經驗棋局每往前推一點需要的經驗絕對不是
等差級數0.0

By Doris
at 2017-05-24T12:15

其實你貼的那篇的那個說法是有點問題的

By Caroline
at 2017-05-26T15:41

而且反過來說 AG現在也正在緩緩修正人類的足跡假以時日

By Xanthe
at 2017-05-28T15:55

人類的影響會越來越細微在培育過程上會否比純淨還快?

By Harry
at 2017-05-28T22:58

當然比較快，光靠亂下起步是非常慢的

By Ophelia
at 2017-05-30T15:07

那這就是我想傳達的我覺得 Master應該不是所謂純淨版

By Skylar Davis
at 2017-05-31T01:08

你可以這樣覺得啊，沒問題

By Agnes
at 2017-06-03T04:22

學界十幾年前也覺得做DNN沒未來，後來靠著幾位固執的人硬是
開闢了新天地

By Hedwig
at 2017-06-03T22:33

我們就等著看結果出來，讚歎一波吧

By Hazel
at 2017-06-06T19:00

policy network 是餵譜餵出來的但它不是非吃人類譜不可

By Connor
at 2017-06-07T05:01

value network 是用 policy network 對下再取"一個盤面"

By Ingrid
at 2017-06-07T15:49

"評估結果接近人類"真的是好事嗎? 現在已經很令人懷疑了

By Damian
at 2017-06-07T19:16

對啊其實我也想被打爆臉跌破眼鏡不過又會有點失望
萬一Master真是純淨版那也就是說這樣的佈局已經接近正

By Linda
at 2017-06-11T22:19

解就會有種人類至少也摸到邊圍棋不算那麼廣的感覺

By Rachel
at 2017-06-12T15:39

我希望真的純淨版可以從頭開始就走得人們莫名其妙www

By Agatha
at 2017-06-15T10:58

你的意思是alphaGo現在的佈局沒讓你很意外嗎？但卻贏了，這
就是意外啊啊啊

By Olive
at 2017-06-16T08:27

如果AG他有意識想著'對付你這樣就夠了'那你的說法OKww
正因為他不論對手是誰都當高手還是用了不算意外的開場

By Ula
at 2017-06-16T10:50

但是越來越早了真的越來越早出現跌破眼鏡的一手了ww

By Catherine
at 2017-06-20T05:44

它開場就有機會出現讓人意外的下法了不是嗎?

By Regina
at 2017-06-21T21:32

如果覺得沒意外，下次他落子之前你就心裡暗自預測一下位置
好了，這樣你就會意外了

By Tom
at 2017-06-23T18:14

請問哪裡有說value network評估結果要接近人類？

By Elvira
at 2017-06-24T15:18

心裡會期待著還不夠還不夠啊再讓我看讓我看(這種)

By Brianna
at 2017-06-27T09:19

上面講的是 policy network 想要的效果~

By Elma
at 2017-07-01T15:58

有人的形容是 policy network 是在模擬人類的"棋感"

By Joe
at 2017-07-02T11:58

那只有pre train時才是吧

By Frederica
at 2017-07-04T23:59

不知道在哪裡看到的好像是辜狗說棋感所佔的百分比
是可以設定的是不是就好像開關一樣可以調整/

By Quanna
at 2017-07-06T08:10

RL階段一切都是勝率導向，跟人怎麼想一點關係也沒有

By Anthony
at 2017-07-08T09:59

調到0 AG就不會刻意下得像人是這樣嗎/

By Margaret
at 2017-07-09T15:50

不是

By Oscar
at 2017-07-14T12:02

我原本把這個棋感理解成'猜測' 聽你們現在提起才想到

By Ethan
at 2017-07-15T19:29

policy network:給定當前局面，預測 / 採樣下一步的走棋
fast rollout: 與 policy network 目標相同但快 1000 倍

By Erin
at 2017-07-18T06:23

value network: 給定當前局面，估計是白勝還是黑勝

By Hedda
at 2017-07-19T17:37

rollout是類比value吧

By Lucy
at 2017-07-22T15:15

人類棋譜只用在 1, 而且還不用 RL 希望它保有變化

By Connor
at 2017-07-26T18:19

fast rollout 是用來"把棋盤填滿"用的

By Puput
at 2017-07-28T06:14

填滿不就是要算勝率

By Erin
at 2017-07-30T10:06

其實這幾個元件都是為了增加 MCTS 效率而且可以分拆開~

By Elizabeth
at 2017-07-31T07:36

value 和 rollout 都是評估勝率的手段啊

By Delia
at 2017-08-02T13:18

https://goo.gl/3BRcmg 可以複習一下

By Skylar DavisLinda
at 2017-08-03T07:52

policy 跟 rollout 有什麼同目標我就不知了

By George
at 2017-08-06T02:37

"給定當前局面，預測 / 採樣下一步的走棋" 指的是這件事

By Faithe
at 2017-08-08T09:20

rollout 也不是隨便亂下啊亂下太沒有效率了

By Elizabeth
at 2017-08-11T04:46

所以把人類棋譜抽掉等於只是換掉 policy network 而已

By Damian
at 2017-08-15T14:32

沒人提到 rollout 是亂下吧

By Megan
at 2017-08-18T21:37

"AG就只剩下蒙特卡羅跟現在AG的其他手下敗將沒有分別"

By Necoo
at 2017-08-18T23:44

我指的是上面這個~

By Carolina Franco
at 2017-08-20T06:21

其實 AlphaGo 裡面用的這些元件幾乎都是之前有人試過的

By Ingrid
at 2017-08-21T00:17

只是個別運作了不起業餘棋力要怎麼串就是困難點~

By Elizabeth
at 2017-08-21T02:35

官方不是有說還是有用到人類棋譜啊?

By Lucy
at 2017-08-25T20:57

我是滿懷疑論文說MCTS用SL policy network

By Isabella
at 2017-08-26T14:37

這樣RL policy network就只是用來產生data給value
network

By Madame
at 2017-08-28T03:12

這樣訓練下去，也只是在練value network而已

By Edwina
at 2017-08-31T02:01

這樣棋力就會突破天際？

By Liam
at 2017-09-01T05:39

這部份論文沒有提出數據，只是一段話帶過

By Eartha
at 2017-09-05T19:16

而且MCTS真的用SL policy network才會表現好的話，

By Madame
at 2017-09-09T16:29

要怎麼不使用人類棋譜？

By Jacob
at 2017-09-13T01:08

不用的話，那就是從30級開始練的RL policy network

By Edith
at 2017-09-13T14:53

這樣效果會比SL policy好？若是這樣，那用原本的RL

By Kelly
at 2017-09-14T12:06

policy network應該也是可以才對吧

By Vanessa
at 2017-09-19T05:28

所以我懷疑其實MCTS用的是RL policy network

By Franklin
at 2017-09-21T18:35

重點是RL沒錯呀，用SL只是權宜之計，避免太多運算

By Rebecca
at 2017-09-25T07:46

而且看figure5d，SL policy network也沒多麼多樣化
機率最高的兩個點加起來就95%了

By Candice
at 2017-09-25T16:07

再者，APV-MCTS就已經有使搜尋不過於集中的機制了

By Mia
at 2017-09-30T14:05

樓上這個疑問很有意思，有沒有可能是人類的policy是不好的
起點...

By Carol
at 2017-10-04T12:56

這裡面其實很多東西都要用試的直覺去猜並不準確

By Doris
at 2017-10-08T03:53

對開發團隊來說是在完全未知的領域別人還要靠他們解答

By Queena
at 2017-10-09T21:44

SL policy network是猜測KGS 6d~9d快棋的落子，我覺
得這肯定是有很大的改善空間

中韓資料互通養虎為患李世石評新Alphago - 圍棋

All Comments

Related Posts

李世石一年收入或超10億列韓國榜首

美女棋手解說?

Master大師60盤棋~接力直播解說~

Master現身很驚訝？棋靈王15年前就已預言

柯潔參加《最強大腦》錄製或能借鑒人機

中韓資料互通養虎為患 李世石評新Alphago - 圍棋

All Comments

Related Posts

中韓資料互通養虎為患李世石評新Alphago - 圍棋