中韓資料互通養虎為患 李世石評新Alphago - 圍棋

Table of Contents

中韓對弈資料互通養虎為患 李世石評新AlphaGo

新浪體育訊  9日,韓tygem網對韓國新聞界爆料說,“和谷歌deepmind團隊一直保持緊
密的合作關係,為AlphaGo的發展不遺餘力提供了全面的支援。”即AlphaGo深度學習的“
人類棋譜”主要採集于韓tygem對弈,而這款對弈平臺與中國實現了資料互通,柯潔、范
廷鈺等中國職業棋手長年在此平臺與朴廷桓等韓國職業交流,為伺服器積累了大量的人類
頂級棋譜。AlphaGo實際去年3月人機大戰前就已“潛伏”在tygem平臺覓食,而tygem平臺
最終起到了“養虎為患”的作用。

  去年12月16日,韓tygem新事業團隊接到谷歌deepmind公司黃士傑博士的電子郵件,
要求“註冊韓國國籍的帳號Magister(P),以測試新版AlphaGo”。黃士傑同時要求刪除
表明是英國籍的帳號“deepmind”,這一帳號是去年3月“人機大戰”前“潛伏”tygem平
臺的AlphaGo的馬甲,而且被明眼的棋友戳穿。而“deepmind”這一帳號的戰績也是不盡
人意,也沒有引起任何轟動效果。

  Magister(P)去年12月29日至31日在tygem平臺出沒,每日十盤連克中韓頂尖棋手取
得三十連勝,旋即AlphaGo又穿上“Master”的馬甲出現在中國“野狐”平臺連戰三天取
得三十連勝,在中韓兩大對弈平臺橫掃人類職業棋手取得了“60:0”的戰績。

 去年3月13日的“人機大戰”第四局,李世石靠“神之一手”戰勝了AlphaGo,這一局很
有可能成為人類面對AlphaGo在正式比賽上取得的唯一一盤勝局。李世石去年成為韓國棋
壇的“獎金王”,一年賺了8億韓元。年關之際,李世石又做出驚人舉動,向他的家鄉新
安郡的福利機構捐獻了5000萬韓元。李世石還指定“專款專用”,為飛禽面(飛禽島)
727口的低收入孤寡老人和殘疾人,100口低收入單親家庭和“多文化家庭(異國婚姻)”
置辦過冬的棉衣和被褥。

  李世石也關注新版AlphaGo在網路對弈平臺橫掃中韓頂尖棋手的表現。李世石評價說
:“去年3月和我較量的AlphaGo,進入讀秒就會出現一些不穩,現在這一部分得到補強了
。現在職業棋手和新版AlphaGo在相同讀秒條件下比賽,就沒有勝算了。AlphaGo是機器,
所以不會出現失誤,但人類棋手在讀秒催促下很容易出現失誤。所以AlphaGo讀秒,而人
類棋手有2~3小時相對充裕的比賽用時的情況下比賽,那麼五盤中有機會贏一盤。”

  此前,李世石在接受採訪時表態“支持柯潔至少贏兩局”。李世石說:“超越國籍,
我想支援後輩棋手柯潔。”

  藍烈

http://sports.sina.com.cn/go/2017-01-09/doc-ifxzkfuh6428301.shtml

--

All Comments

Yedda avatarYedda2017-01-11
內文錯很多吧... deepmind帳號是黃博士自己下的 所以
才沒有很驚人
Andy avatarAndy2017-01-13
養虎為患 這鳥結論
Margaret avatarMargaret2017-01-18
是2個都有在下
Linda avatarLinda2017-01-19
黃博士是用deepmind很久 不過後面幾場似乎有用阿法狗測試
Queena avatarQueena2017-01-22
不過黃沒出來闢謠 也沒人去問就是了
Zora avatarZora2017-01-24
AlphaGO:人類頂級棋譜?ZZZzzz
Yedda avatarYedda2017-01-28
ㄏㄏ 又有人開始消費了
Victoria avatarVictoria2017-01-31
推捐錢給弱勢,推支持後輩柯傑~
Regina avatarRegina2017-02-04
新版早就不吃人類棋譜自己練了,這篇還是算了吧
Oscar avatarOscar2017-02-05
"AlphaGO這麼強 是吸收了我們的頂級棋譜"
Genevieve avatarGenevieve2017-02-09
「新版是沒吃過人類棋譜的版本」<=雖然很多人都這樣猜
Ida avatarIda2017-02-10
了 但官方有宣布確認過嗎?
master就是當初說要嘗試完全不吸收棋譜自己練的版本?
Callum avatarCallum2017-02-14
這事去年老闆和 Aja 都講過... 時間這麼長應該是做完了
從理論上來看 初始階段餵的人類棋譜的確可能變成污染 @@
Elma avatarElma2017-02-18
還在人類棋譜 就訓練資料來看根本連0.1%的比例都沒有
輸了就開始各種找理由 也太好笑
Hedda avatarHedda2017-02-21
我個人認為V25是V18練上去的啦
Rae avatarRae2017-02-23
反正就"應該"做完了 "大概"是了 "這些招法沒見過"所以
Kyle avatarKyle2017-02-27
是自我版 根本都是猜的
Ursula avatarUrsula2017-03-01
看了AlphaGO的下棋評估方式就會發現 要做純淨版絕對不是
Audriana avatarAudriana2017-03-02
那麼簡單 光是"何謂勝利" 你沒有樣板給電腦看 也說不清
Ethan avatarEthan2017-03-06
光是AG自我對奕 因為勝率而修正落子點 形成沒看過的下法
Tracy avatarTracy2017-03-11
就是非常常見的事 隨著時間人類譜的影響降低也可預見
Charlotte avatarCharlotte2017-03-13
電腦判斷何謂勝利還真的不用樣板就做得到,只要會填子就好
Robert avatarRobert2017-03-14
不是最後的勝利啦 是"某局面下"的勝負判斷
Agnes avatarAgnes2017-03-18
Yedda avatarYedda2017-03-19
正確的話 因為自我無限對奕的方法 AG以前的AI就用過了
Jacky avatarJacky2017-03-22
效果都沒有AG的好 被殺得不要不要的 假設拿掉人類譜
AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別
Ingrid avatarIngrid2017-03-26
拿掉人類譜還有兩張空白有待訓練的網路
Elizabeth avatarElizabeth2017-03-30
那要這麼說 AG就只是錢砸出來的 誰的電腦連得多 就越猛
Freda avatarFreda2017-04-03
錢是必要條件,不是充分條件
Hardy avatarHardy2017-04-07
我的意思是AG目前的高度 人類譜佔了一半 抽掉了=頓失五
Hedwig avatarHedwig2017-04-08
成功 一年時間 大概跟刑天等等齊頭
Edward Lewis avatarEdward Lewis2017-04-10
我現在沒在討論master有沒有抽掉人類譜,這點等他們自己公
佈就好,我只是個看熱鬧的。剛開始我是不了解你怎麼推論出
沒有抽掉的,現在比較明白了
Victoria avatarVictoria2017-04-10
其實我本來也是覺得自我對奕好像很厲害 可是看過AG的下
Megan avatarMegan2017-04-12
有人覺得圍棋老師讓你棋力從30級變業餘初段是在污染
Ina avatarIna2017-04-15
棋介紹後才知道原來並不是我想的那樣
Victoria avatarVictoria2017-04-17
你的棋藝?
Bethany avatarBethany2017-04-18
看起來上面幾位並沒有弄懂人類棋譜的作用是什麼
William avatarWilliam2017-04-22
常常被拿來濫用的"左右互搏"也一樣 和一般人想像兩碼事
Leila avatarLeila2017-04-22
AlphaGo 厲害的地方是把舊有的兩套方法湊在一起
Frederica avatarFrederica2017-04-26
moonlind 好像以為人類譜很重要? 根本不是那麼回事
Donna avatarDonna2017-04-28
拿人類譜去餵 DCNN, 結果會是讓它的反應比較接近人類
Olga avatarOlga2017-05-01
網棋通常沒有細算 離最佳解的距離應該會比它自己算還遠
Dinah avatarDinah2017-05-01
就拿上面的疑問來講 DCNN並不需要知道"何謂勝利"
Franklin avatarFranklin2017-05-04
它只負責給出選擇 MCTS 自己會驗算, 各自做自己擅長的事
Selena avatarSelena2017-05-08
把舊有的兩種方法湊在一起對啊 其中一邊是餵譜餵出來的
另一邊是亂走走出來的 兩者合一 發現能屌打以前亂走版的
Thomas avatarThomas2017-05-10
現在假設餵譜那邊 用的都是亂走出來的譜(純淨) 那不就等
Selena avatarSelena2017-05-13
於從頭到尾都是亂走版? 這樣還能達到AG的高度嗎
Edith avatarEdith2017-05-17
理論上可以,只是要訓練更久。
Selena avatarSelena2017-05-19
究竟是多久 其實根據我貼的那個 棋局越靠前 吃譜的份量
Donna avatarDonna2017-05-19
只是自己亂下,想要無師自通,基本上是浪費時間
Anthony avatarAnthony2017-05-20
越重 不正表示 棋局越靠前 經驗法則越重要 而電腦要怎麼
Jessica avatarJessica2017-05-21
累計越難算的經驗 棋局每往前推一點 需要的經驗絕對不是
等差級數0.0
Doris avatarDoris2017-05-24
其實你貼的那篇的那個說法是有點問題的
Caroline avatarCaroline2017-05-26
而且反過來說 AG現在也正在緩緩修正人類的足跡 假以時日
Xanthe avatarXanthe2017-05-28
人類的影響會越來越細微 在培育過程上會否比純淨還快?
Harry avatarHarry2017-05-28
當然比較快,光靠亂下起步是非常慢的
Ophelia avatarOphelia2017-05-30
那這就是我想傳達的 我覺得 Master應該不是所謂純淨版
Skylar Davis avatarSkylar Davis2017-05-31
你可以這樣覺得啊,沒問題
Agnes avatarAgnes2017-06-03
學界十幾年前也覺得做DNN沒未來,後來靠著幾位固執的人硬是
開闢了新天地
Hedwig avatarHedwig2017-06-03
我們就等著看結果出來,讚歎一波吧
Hazel avatarHazel2017-06-06
policy network 是餵譜餵出來的 但它不是非吃人類譜不可
Connor avatarConnor2017-06-07
value network 是用 policy network 對下再取"一個盤面"
Ingrid avatarIngrid2017-06-07
"評估結果接近人類"真的是好事嗎? 現在已經很令人懷疑了
Damian avatarDamian2017-06-07
對啊 其實我也想被打爆臉 跌破眼鏡 不過又會有點失望
萬一Master真是純淨版 那也就是說這樣的佈局已經接近正
Linda avatarLinda2017-06-11
解 就會有種 人類至少也摸到邊 圍棋不算那麼廣 的感覺
Rachel avatarRachel2017-06-12
我希望真的純淨版可以從頭開始就走得人們莫名其妙www
Agatha avatarAgatha2017-06-15
你的意思是alphaGo現在的佈局沒讓你很意外嗎?但卻贏了,這
就是意外啊啊啊
Olive avatarOlive2017-06-16
如果AG他有意識 想著'對付你 這樣就夠了'那你的說法OKww
正因為他不論對手是誰都當高手 還是用了不算意外的開場
Ula avatarUla2017-06-16
但是越來越早了 真的 越來越早出現跌破眼鏡的一手了ww
Catherine avatarCatherine2017-06-20
它開場就有機會出現讓人意外的下法了不是嗎?
Regina avatarRegina2017-06-21
如果覺得沒意外,下次他落子之前你就心裡暗自預測一下位置
好了,這樣你就會意外了
Tom avatarTom2017-06-23
請問哪裡有說value network評估結果要接近人類?
Elvira avatarElvira2017-06-24
心裡會期待著 還不夠 還不夠啊 再讓我看 讓我看(這種)
Brianna avatarBrianna2017-06-27
上面講的是 policy network 想要的效果~
Elma avatarElma2017-07-01
有人的形容是 policy network 是在模擬人類的"棋感"
Joe avatarJoe2017-07-02
那只有pre train時才是吧
Frederica avatarFrederica2017-07-04
不知道在哪裡看到的 好像是辜狗說 棋感所佔的百分比
是可以設定的 是不是就好像開關一樣可以調整/
Quanna avatarQuanna2017-07-06
RL階段一切都是勝率導向,跟人怎麼想一點關係也沒有
Anthony avatarAnthony2017-07-08
調到0 AG就不會刻意下得像人 是這樣嗎/
Margaret avatarMargaret2017-07-09
不是
Oscar avatarOscar2017-07-14
我原本把這個棋感理解成'猜測' 聽你們現在提起 才想到
Ethan avatarEthan2017-07-15
policy network:給定當前局面,預測 / 採樣下一步的走棋
fast rollout: 與 policy network 目標相同但快 1000 倍
Erin avatarErin2017-07-18
value network: 給定當前局面,估計是白勝還是黑勝
Hedda avatarHedda2017-07-19
rollout是類比value吧
Lucy avatarLucy2017-07-22
人類棋譜只用在 1, 而且還不用 RL 希望它保有變化
Connor avatarConnor2017-07-26
fast rollout 是用來"把棋盤填滿"用的
Puput avatarPuput2017-07-28
填滿不就是要算勝率
Erin avatarErin2017-07-30
其實這幾個元件都是為了增加 MCTS 效率 而且可以分拆開~
Elizabeth avatarElizabeth2017-07-31
value 和 rollout 都是評估勝率的手段啊
Delia avatarDelia2017-08-02
https://goo.gl/3BRcmg 可以複習一下
Skylar DavisLinda avatarSkylar DavisLinda2017-08-03
policy 跟 rollout 有什麼同目標我就不知了
George avatarGeorge2017-08-06
"給定當前局面,預測 / 採樣下一步的走棋" 指的是這件事
Faithe avatarFaithe2017-08-08
rollout 也不是隨便亂下啊 亂下太沒有效率了
Elizabeth avatarElizabeth2017-08-11
所以把人類棋譜抽掉等於只是換掉 policy network 而已
Damian avatarDamian2017-08-15
沒人提到 rollout 是亂下吧
Megan avatarMegan2017-08-18
"AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別"
Necoo avatarNecoo2017-08-18
我指的是上面這個~
Carolina Franco avatarCarolina Franco2017-08-20
其實 AlphaGo 裡面用的這些元件 幾乎都是之前有人試過的
Ingrid avatarIngrid2017-08-21
只是個別運作了不起業餘棋力 要怎麼串就是困難點~
Elizabeth avatarElizabeth2017-08-21
官方不是有說還是有用到人類棋譜啊?
Lucy avatarLucy2017-08-25
我是滿懷疑論文說MCTS用SL policy network
Isabella avatarIsabella2017-08-26
這樣RL policy network就只是用來產生data給value
network
Madame avatarMadame2017-08-28
這樣訓練下去,也只是在練value network而已
Edwina avatarEdwina2017-08-31
這樣棋力就會突破天際?
Liam avatarLiam2017-09-01
這部份論文沒有提出數據,只是一段話帶過
Eartha avatarEartha2017-09-05
而且MCTS真的用SL policy network才會表現好的話,
Madame avatarMadame2017-09-09
要怎麼不使用人類棋譜?
Jacob avatarJacob2017-09-13
不用的話,那就是從30級開始練的RL policy network
Edith avatarEdith2017-09-13
這樣效果會比SL policy好?若是這樣,那用原本的RL
Kelly avatarKelly2017-09-14
policy network應該也是可以才對吧
Vanessa avatarVanessa2017-09-19
所以我懷疑其實MCTS用的是RL policy network
Franklin avatarFranklin2017-09-21
重點是RL沒錯呀,用SL只是權宜之計,避免太多運算
Rebecca avatarRebecca2017-09-25
而且看figure5d,SL policy network也沒多麼多樣化
機率最高的兩個點加起來就95%了
Candice avatarCandice2017-09-25
再者,APV-MCTS就已經有使搜尋不過於集中的機制了
Mia avatarMia2017-09-30
樓上這個疑問很有意思,有沒有可能是人類的policy是不好的
起點...
Carol avatarCarol2017-10-04
這裡面其實很多東西都要用試的 直覺去猜並不準確
Doris avatarDoris2017-10-08
對開發團隊來說是在完全未知的領域 別人還要靠他們解答
Queena avatarQueena2017-10-09
SL policy network是猜測KGS 6d~9d快棋的落子,我覺
得這肯定是有很大的改善空間