AlphaGo發現自己79步失誤 - 圍棋

Andy avatar
By Andy
at 2016-03-13T19:53

Table of Contents

※ 引述《tlchen (台灣加油)》之銘言:
: 從這兩個 twitter 來看, AI 在 79 時仍認為自己有 79% 的勝率,
: 直到第 87 手時,才發現勝率驟降。四日棋迷猜測如下:
: AI 估計勝率是經由之後的模擬,白 78 手被認為神手,但或許是之後
: 的巧妙變化是不明顯的,所以 AI 無法知道這手有這麼大的功用,或
: 是說,無法準確的評估此時的盤面。
value network 是給一個盤面 (361 個輸入黑/白/空) 直接告訴你勝率.

基本上盤面幾乎不會重複, 所以每一個盤面都是 AlphaGo 或人沒看過的.

如果是人, 中盤之後可能會開始點空估計目數.
而估錯最可能發生在以為的活棋其實是死棋, 比如說進行中的攻殺.

value network 是餵給它千萬盤面, 然後跟它說最後是贏是輸訓練出來.
遇到新的盤面, value network 根據之前的經驗 (神經連結權重) 吐出結果.

如果單純餵 "361 個輸入黑/白/空" 進去訓練一定完蛋,
因為這樣變成單純的形態學, 長得像某個樣子就以為會輸或會贏.
圍棋很多時候差一路就差很多 (好手的旁邊常是惡手)
所以還會加入 "剩下的氣數" "提子數" "手順" "征子" 等等資訊進去訓練.

如果人類認為 79 手的盤勢黑棋大劣了, 那麼 79 手的盤面 value network
就應該吐勝率陡降的值出來, 而不是等到 87 手的盤面才反應.

如果 AlphaGo 知道 79 手 (甚至更早) 的盤面劣勢, 前幾手就會避免走上這個局面.
但到 87 手才知道劣勢, 這時候已經走上不歸路.

AlphaGo 團隊回去一定是在研究這種盤面為什麼會估錯, 以及要如何調整訓練方式.

: 這提供了要對付目前這版 AlphaGo 的方法,你最好下一些方法是:接
: 下來對你的最佳解跟次佳解,結果會差很多,這樣 AI 用模擬的,就有
: 機會誤判。如果你下的棋,接下來的應對,結果都差不了太多,那 AI
: 自然估得準。讓它估不準,才會在接下來還沒估準前,繼續出錯。
這真的要拼 AlphaGo 形勢判斷錯誤.

但是我們不知道甚麼樣的盤面可以讓 AlphaGo 形勢判斷錯誤, 劣勢誤以為優勢.
也許是大規模攻殺, 然後又走進特定的棋型 (像小李今天那一手) 讓它誤判.

--
Tags: 圍棋

All Comments

Rebecca avatar
By Rebecca
at 2016-03-17T17:16
我也這樣認為 這麼晚才估出來 已經有很大的問題
Gilbert avatar
By Gilbert
at 2016-03-19T10:38
後面alphago還演變成一堆自殺下法
John avatar
By John
at 2016-03-22T17:46
期待Google公開AlphaGo秀斗的關鍵原因。
Carolina Franco avatar
By Carolina Franco
at 2016-03-26T17:02
google乾脆大方公開程式碼 讓全世界寫程式的去bug不是
Bennie avatar
By Bennie
at 2016-03-27T03:50
更快???
Adele avatar
By Adele
at 2016-03-27T10:22
這樣google還要混嗎
Adele avatar
By Adele
at 2016-03-30T11:49
所以79~87的自殺打法是他認為勝率7X%時下出來的?
Ida avatar
By Ida
at 2016-03-31T10:07
所以alphago應該只能預估是當下而不是後面局勢
Lauren avatar
By Lauren
at 2016-04-01T07:51
它會預估後面, 但若估錯得太早已經來不及救了.
Lucy avatar
By Lucy
at 2016-04-02T14:44
那應該說alphago目前還沒有大局觀
Hedy avatar
By Hedy
at 2016-04-06T04:35
它有大局觀 而且很強喔 只是跟人一樣不是完全正確
Margaret avatar
By Margaret
at 2016-04-09T15:32
我認為alphago自我鍛鍊幾百萬 幾千萬盤 應該多少會下
Kyle avatar
By Kyle
at 2016-04-12T14:21
不是Alphago只能估當下局勢,而是他並沒有完全算完(正是
Zanna avatar
By Zanna
at 2016-04-14T05:11
阿法狗就剛好沒算到那步 不是沒有大局觀
Ida avatar
By Ida
at 2016-04-18T23:32
出這種自殺 自爆的棋路 但google公司應該沒花時間去
檢驗每一個棋盤結果
Charlotte avatar
By Charlotte
at 2016-04-22T06:49
沒有大局觀還能屌打李喔? 怎麼可能
那演算法就是有隨機性 就隨機的剛好沒算到關鍵的那步
Charlotte avatar
By Charlotte
at 2016-04-26T14:56
因為現今電腦還沒辦法完全計算完所以才會只有Alphago能
有能力打敗職業棋手),Alphago的類神經演算法是模擬人類
Megan avatar
By Megan
at 2016-04-28T19:14
它有算到... 但是劣勢誤以為優勢所以還是往那邊下
Jacky avatar
By Jacky
at 2016-04-29T11:29
還好 李世石再這五盤 幫google省了不少檢驗時間
Damian avatar
By Damian
at 2016-05-01T20:00
你怎麼能那麼確定他有算到?
Connor avatar
By Connor
at 2016-05-04T08:30
在有限的時間內去找出勝率最高的位置下,而且就像black
Tracy avatar
By Tracy
at 2016-05-05T06:56
提到的他還帶有隨機性,也就是說即使重新下一次今天的棋
Alphago下出來的結果理論上也有很大機會是不同的
Queena avatar
By Queena
at 2016-05-06T21:23
選擇不是看value network和MCTS的綜合結果嗎?沒只看其
中一種吧
Ursula avatar
By Ursula
at 2016-05-07T09:48
因為小李下了之後好幾手 AlphaGo 居然還以為自己優勢
Rosalind avatar
By Rosalind
at 2016-05-11T22:27
就是連續沒算到吧 至於為什麼沒算到就是要看了
Una avatar
By Una
at 2016-05-16T05:18
我是猜他重心花在計算自己下一步怎下 勝率高 沒花太
Olivia avatar
By Olivia
at 2016-05-19T16:48
不覺得AI這樣的"以為"其實跟人類有很類似的一面嗎
Sierra Rose avatar
By Sierra Rose
at 2016-05-20T17:26
看到底是演算法設計缺陷 隨機有問題 還是其他有的沒的
Leila avatar
By Leila
at 2016-05-23T10:32
多時間 去幫對方計算 對方下一步下那裡 勝率如何
Agatha avatar
By Agatha
at 2016-05-24T17:13
因為程式是人想 寫出來的阿 哈哈 當然會有人類缺陷
Tristan Cohan avatar
By Tristan Cohan
at 2016-05-26T11:22
我記得之前不是有一局就想說他可能大局觀不足,但李原本
Jack avatar
By Jack
at 2016-05-29T09:43
給一個盤面 要估出勝算本來就是超難題 有很大進步空間
Brianna avatar
By Brianna
at 2016-05-31T08:58
他論文有提到他會預測對方接下來怎麼下 別亂猜
Frederic avatar
By Frederic
at 2016-06-02T03:28
想攻的地方被AlphaGO先行穩固
Edward Lewis avatar
By Edward Lewis
at 2016-06-04T09:51
推這篇,解說清楚。
Selena avatar
By Selena
at 2016-06-05T23:52
所以合理懷疑87手是被插入執行
Anonymous avatar
By Anonymous
at 2016-06-10T21:29
有被動手腳之嫌
Donna avatar
By Donna
at 2016-06-15T17:42
這ai就是模擬人類腦神經的產物 他本來就很像人
Quanna avatar
By Quanna
at 2016-06-17T21:53
他跟人的差別是他不眠不休的鑽研圍棋 而且也只會下圍棋
Gilbert avatar
By Gilbert
at 2016-06-21T07:33
這種學習型ai甚至可以發展出自己的棋風 比如阿發狗的勝率流
Anthony avatar
By Anthony
at 2016-06-23T14:02
那是他吃玩棋譜之後覺得最好贏的下法
Catherine avatar
By Catherine
at 2016-06-24T16:35
比較可怕的是他很少犯錯 沒有情緒 你不能知到自己是否已經
讓ai動搖
Audriana avatar
By Audriana
at 2016-06-29T10:34
小李復活我覺得沒話說 但是阿發狗的防禦明顯掉太多了
這我認為有問題 不太可能黑51那邊明顯放給人殺的
Barb Cronin avatar
By Barb Cronin
at 2016-07-02T22:04
也許這就是穩穩的贏 vs 贏多一點以避免後面會出錯 間的取捨
Rebecca avatar
By Rebecca
at 2016-07-04T09:02
重金聘請的測試工程師還真的找到bug~
Belly avatar
By Belly
at 2016-07-07T12:55
以deepmind的原始概念來說 它的系統每做一個動作
Susan avatar
By Susan
at 2016-07-09T12:22
它就要被告知分數是增減或不變
Valerie avatar
By Valerie
at 2016-07-12T03:09
也就是一個遊戲是單純的分數升降 deepmind通過學習就必勝
但圍棋難的是每下一手並沒有明確的分數升降
所以它才要估勝率來當做一種分數
Ivy avatar
By Ivy
at 2016-07-15T00:04
所以要修的重點就是估算這部分 不然其他結構都是一樣的
deepmind也可以拿來玩星海 只是同樣要給它一個算分系統
Olga avatar
By Olga
at 2016-07-16T01:08
演算法本來就有隨機性阿
Daniel avatar
By Daniel
at 2016-07-18T15:34
請問一下估計勝率這種東西有可能多報嗎?
Anthony avatar
By Anthony
at 2016-07-19T01:57
例如它估計49%~79%,連它自己都不敢肯定會收斂到49還是79
然後它就先吐79%給人看這樣?
Jessica avatar
By Jessica
at 2016-07-20T02:30
勝率本來就是一個統合比例了,怎麼會是一個範圍XD
Daniel avatar
By Daniel
at 2016-07-22T08:43
http://zhuanlan.zhihu.com/yuandong/20607684
Edward Lewis avatar
By Edward Lewis
at 2016-07-23T00:47
這幾個輔助 MCTS 的網路很複雜也很敏感 需要大量的調校
Dora avatar
By Dora
at 2016-07-26T01:31
"估計勝率"是計算的結果, 這盤棋的狀況顯然是出錯了

演算法上的Singularity(奇異點)

Valerie avatar
By Valerie
at 2016-03-13T19:30
看到AlphaGo今天的失招 其實搞軟體工程或是控制的人應該知道 大型的系統有一些不穩定的奇異點其實是普遍現象 ____________ 個人的經驗: 中央研究院院士黃鍔開發出來的經驗模態分解(Empirical Mode Decomposition, EMD) 之前他說一直無法數學證明它的收斂性 . ...

本版賭盤將開出25倍或13倍的超高獎金

Isla avatar
By Isla
at 2016-03-13T19:25
看了一下賭盤 李世石 對決 Google AI AlphaGo 揪竟是人腦可以先守住一城,還是Google的AI橫空出世? 註:特殊情況 包含 循環劫無勝負、各種狀況停賽、延賽、罕見棋型之規則爭議。 為增加此情形開出之機會,任一局中出現以下情況亦開出特殊情況 李世石執黑初手下在小目、星位、三三、目外、高目 ...

陳耀燁:盼親自對決AlphaGo 欽佩李世石

Yedda avatar
By Yedda
at 2016-03-13T18:57
陳耀燁做客搜狐:盼親自對決AlphaGo 欽佩李世石 北京時間3月13日,棋手李世石與谷歌AlphaGo的人機大戰第四場今日開戰,最終李世石開 場佔據優勢,導致谷歌AlphaGo在比賽還剩54秒 的時候投子認輸,李世石扳回一城,大比 分變為1-3。擔任搜狐解說嘉賓的世界冠軍陳耀燁九段表示,非常希望自己也可以 ...

李世石:若重來不選圍棋 3分鐘就答應谷歌

Doris avatar
By Doris
at 2016-03-13T18:55
要先說,這篇是舊文,而且其實不太想轉這家媒體的。 但是只找到這篇中文訪問,大概是因為台灣媒體本來就不注意圍棋吧.. 而且我本身滿喜歡這篇的內容,所以就貼上來了。 ────────────────────────────── http://finance.sina.com/bg/tech/sinac ...

AlphaGo發現自己79步失誤

Tom avatar
By Tom
at 2016-03-13T18:53
※ 引述《tsppajrdrrfs ()》之銘言: : ※ [本文轉錄自 Gossiping 看板 #1MvIov-I ] : 作者: n91324 (不丹) 看板: Gossiping : 標題: [爆卦] AlphaGo發現自己79步失誤 : 時間: Sun Mar 13 17:02:45 2016 : ...