AlphaGo發現自己79步失誤 - 圍棋

By Andy
at 2016-03-13T19:53

Table of Contents

※ 引述《tlchen (台灣加油)》之銘言：
: 從這兩個 twitter 來看， AI 在 79 時仍認為自己有 79% 的勝率，
: 直到第 87 手時，才發現勝率驟降。四日棋迷猜測如下：
: AI 估計勝率是經由之後的模擬，白 78 手被認為神手，但或許是之後
: 的巧妙變化是不明顯的，所以 AI 無法知道這手有這麼大的功用，或
: 是說，無法準確的評估此時的盤面。
value network 是給一個盤面 (361 個輸入黑/白/空) 直接告訴你勝率.

基本上盤面幾乎不會重複, 所以每一個盤面都是 AlphaGo 或人沒看過的.

如果是人, 中盤之後可能會開始點空估計目數.
而估錯最可能發生在以為的活棋其實是死棋, 比如說進行中的攻殺.

value network 是餵給它千萬盤面, 然後跟它說最後是贏是輸訓練出來.
遇到新的盤面, value network 根據之前的經驗 (神經連結權重) 吐出結果.

如果單純餵 "361 個輸入黑/白/空" 進去訓練一定完蛋,
因為這樣變成單純的形態學, 長得像某個樣子就以為會輸或會贏.
圍棋很多時候差一路就差很多 (好手的旁邊常是惡手)
所以還會加入 "剩下的氣數" "提子數" "手順" "征子" 等等資訊進去訓練.

如果人類認為 79 手的盤勢黑棋大劣了, 那麼 79 手的盤面 value network
就應該吐勝率陡降的值出來, 而不是等到 87 手的盤面才反應.

如果 AlphaGo 知道 79 手 (甚至更早) 的盤面劣勢, 前幾手就會避免走上這個局面.
但到 87 手才知道劣勢, 這時候已經走上不歸路.

AlphaGo 團隊回去一定是在研究這種盤面為什麼會估錯, 以及要如何調整訓練方式.

: 這提供了要對付目前這版 AlphaGo 的方法，你最好下一些方法是：接
: 下來對你的最佳解跟次佳解，結果會差很多，這樣 AI 用模擬的，就有
: 機會誤判。如果你下的棋，接下來的應對，結果都差不了太多，那 AI
: 自然估得準。讓它估不準，才會在接下來還沒估準前，繼續出錯。
這真的要拼 AlphaGo 形勢判斷錯誤.

但是我們不知道甚麼樣的盤面可以讓 AlphaGo 形勢判斷錯誤, 劣勢誤以為優勢.
也許是大規模攻殺, 然後又走進特定的棋型 (像小李今天那一手) 讓它誤判.

--

Tags: 圍棋

All Comments

By Rebecca
at 2016-03-17T17:16

我也這樣認為這麼晚才估出來已經有很大的問題

By Gilbert
at 2016-03-19T10:38

後面alphago還演變成一堆自殺下法

By John
at 2016-03-22T17:46

期待Google公開AlphaGo秀斗的關鍵原因。

By Carolina Franco
at 2016-03-26T17:02

google乾脆大方公開程式碼讓全世界寫程式的去bug不是

By Bennie
at 2016-03-27T03:50

更快???

By Adele
at 2016-03-27T10:22

這樣google還要混嗎

By Adele
at 2016-03-30T11:49

所以79~87的自殺打法是他認為勝率7X%時下出來的？

By Ida
at 2016-03-31T10:07

所以alphago應該只能預估是當下而不是後面局勢

By Lauren
at 2016-04-01T07:51

它會預估後面, 但若估錯得太早已經來不及救了.

By Lucy
at 2016-04-02T14:44

那應該說alphago目前還沒有大局觀

By Hedy
at 2016-04-06T04:35

它有大局觀而且很強喔只是跟人一樣不是完全正確

By Margaret
at 2016-04-09T15:32

我認為alphago自我鍛鍊幾百萬幾千萬盤應該多少會下

By Kyle
at 2016-04-12T14:21

不是Alphago只能估當下局勢，而是他並沒有完全算完(正是

By Zanna
at 2016-04-14T05:11

阿法狗就剛好沒算到那步不是沒有大局觀

By Ida
at 2016-04-18T23:32

出這種自殺自爆的棋路但google公司應該沒花時間去
檢驗每一個棋盤結果

By Charlotte
at 2016-04-22T06:49

沒有大局觀還能屌打李喔? 怎麼可能
那演算法就是有隨機性就隨機的剛好沒算到關鍵的那步

By Charlotte
at 2016-04-26T14:56

因為現今電腦還沒辦法完全計算完所以才會只有Alphago能
有能力打敗職業棋手)，Alphago的類神經演算法是模擬人類

By Megan
at 2016-04-28T19:14

它有算到... 但是劣勢誤以為優勢所以還是往那邊下

By Jacky
at 2016-04-29T11:29

還好李世石再這五盤幫google省了不少檢驗時間

By Damian
at 2016-05-01T20:00

你怎麼能那麼確定他有算到?

By Connor
at 2016-05-04T08:30

在有限的時間內去找出勝率最高的位置下，而且就像black

By Tracy
at 2016-05-05T06:56

提到的他還帶有隨機性，也就是說即使重新下一次今天的棋
Alphago下出來的結果理論上也有很大機會是不同的

By Queena
at 2016-05-06T21:23

選擇不是看value network和MCTS的綜合結果嗎？沒只看其
中一種吧

By Ursula
at 2016-05-07T09:48

因為小李下了之後好幾手 AlphaGo 居然還以為自己優勢

By Rosalind
at 2016-05-11T22:27

就是連續沒算到吧至於為什麼沒算到就是要看了

By Una
at 2016-05-16T05:18

我是猜他重心花在計算自己下一步怎下勝率高沒花太

By Olivia
at 2016-05-19T16:48

不覺得AI這樣的"以為"其實跟人類有很類似的一面嗎

By Sierra Rose
at 2016-05-20T17:26

看到底是演算法設計缺陷隨機有問題還是其他有的沒的

By Leila
at 2016-05-23T10:32

多時間去幫對方計算對方下一步下那裡勝率如何

By Agatha
at 2016-05-24T17:13

因為程式是人想寫出來的阿哈哈當然會有人類缺陷

By Tristan Cohan
at 2016-05-26T11:22

我記得之前不是有一局就想說他可能大局觀不足，但李原本

By Jack
at 2016-05-29T09:43

給一個盤面要估出勝算本來就是超難題有很大進步空間

By Brianna
at 2016-05-31T08:58

他論文有提到他會預測對方接下來怎麼下別亂猜

By Frederic
at 2016-06-02T03:28

想攻的地方被AlphaGO先行穩固

By Edward Lewis
at 2016-06-04T09:51

推這篇，解說清楚。

By Selena
at 2016-06-05T23:52

所以合理懷疑87手是被插入執行

By Anonymous
at 2016-06-10T21:29

有被動手腳之嫌

By Donna
at 2016-06-15T17:42

這ai就是模擬人類腦神經的產物他本來就很像人

By Quanna
at 2016-06-17T21:53

他跟人的差別是他不眠不休的鑽研圍棋而且也只會下圍棋

By Gilbert
at 2016-06-21T07:33

這種學習型ai甚至可以發展出自己的棋風比如阿發狗的勝率流

By Anthony
at 2016-06-23T14:02

那是他吃玩棋譜之後覺得最好贏的下法

By Catherine
at 2016-06-24T16:35

比較可怕的是他很少犯錯沒有情緒你不能知到自己是否已經
讓ai動搖

By Audriana
at 2016-06-29T10:34

小李復活我覺得沒話說但是阿發狗的防禦明顯掉太多了
這我認為有問題不太可能黑51那邊明顯放給人殺的

By Barb Cronin
at 2016-07-02T22:04

也許這就是穩穩的贏 vs 贏多一點以避免後面會出錯間的取捨

By Rebecca
at 2016-07-04T09:02

重金聘請的測試工程師還真的找到bug~

By Belly
at 2016-07-07T12:55

以deepmind的原始概念來說它的系統每做一個動作

By Susan
at 2016-07-09T12:22

它就要被告知分數是增減或不變

By Valerie
at 2016-07-12T03:09

也就是一個遊戲是單純的分數升降 deepmind通過學習就必勝
但圍棋難的是每下一手並沒有明確的分數升降
所以它才要估勝率來當做一種分數

By Ivy
at 2016-07-15T00:04

所以要修的重點就是估算這部分不然其他結構都是一樣的
deepmind也可以拿來玩星海只是同樣要給它一個算分系統

By Olga
at 2016-07-16T01:08

演算法本來就有隨機性阿

By Daniel
at 2016-07-18T15:34

請問一下估計勝率這種東西有可能多報嗎？

By Anthony
at 2016-07-19T01:57

例如它估計49%~79%，連它自己都不敢肯定會收斂到49還是79
然後它就先吐79%給人看這樣?

By Jessica
at 2016-07-20T02:30

勝率本來就是一個統合比例了，怎麼會是一個範圍XD

By Daniel
at 2016-07-22T08:43

http://zhuanlan.zhihu.com/yuandong/20607684

By Edward Lewis
at 2016-07-23T00:47

這幾個輔助 MCTS 的網路很複雜也很敏感需要大量的調校

By Dora
at 2016-07-26T01:31

"估計勝率"是計算的結果, 這盤棋的狀況顯然是出錯了

AlphaGo發現自己79步失誤 - 圍棋

All Comments

Related Posts

演算法上的Singularity(奇異點)

本版賭盤將開出25倍或13倍的超高獎金

陳耀燁:盼親自對決AlphaGo 欽佩李世石

李世石：若重來不選圍棋 3分鐘就答應谷歌

AlphaGo發現自己79步失誤