AlphaGo發現自己79步失誤 - 圍棋
By Andy
at 2016-03-13T19:53
at 2016-03-13T19:53
Table of Contents
※ 引述《tlchen (台灣加油)》之銘言:
: 從這兩個 twitter 來看, AI 在 79 時仍認為自己有 79% 的勝率,
: 直到第 87 手時,才發現勝率驟降。四日棋迷猜測如下:
: AI 估計勝率是經由之後的模擬,白 78 手被認為神手,但或許是之後
: 的巧妙變化是不明顯的,所以 AI 無法知道這手有這麼大的功用,或
: 是說,無法準確的評估此時的盤面。
value network 是給一個盤面 (361 個輸入黑/白/空) 直接告訴你勝率.
基本上盤面幾乎不會重複, 所以每一個盤面都是 AlphaGo 或人沒看過的.
如果是人, 中盤之後可能會開始點空估計目數.
而估錯最可能發生在以為的活棋其實是死棋, 比如說進行中的攻殺.
value network 是餵給它千萬盤面, 然後跟它說最後是贏是輸訓練出來.
遇到新的盤面, value network 根據之前的經驗 (神經連結權重) 吐出結果.
如果單純餵 "361 個輸入黑/白/空" 進去訓練一定完蛋,
因為這樣變成單純的形態學, 長得像某個樣子就以為會輸或會贏.
圍棋很多時候差一路就差很多 (好手的旁邊常是惡手)
所以還會加入 "剩下的氣數" "提子數" "手順" "征子" 等等資訊進去訓練.
如果人類認為 79 手的盤勢黑棋大劣了, 那麼 79 手的盤面 value network
就應該吐勝率陡降的值出來, 而不是等到 87 手的盤面才反應.
如果 AlphaGo 知道 79 手 (甚至更早) 的盤面劣勢, 前幾手就會避免走上這個局面.
但到 87 手才知道劣勢, 這時候已經走上不歸路.
AlphaGo 團隊回去一定是在研究這種盤面為什麼會估錯, 以及要如何調整訓練方式.
: 這提供了要對付目前這版 AlphaGo 的方法,你最好下一些方法是:接
: 下來對你的最佳解跟次佳解,結果會差很多,這樣 AI 用模擬的,就有
: 機會誤判。如果你下的棋,接下來的應對,結果都差不了太多,那 AI
: 自然估得準。讓它估不準,才會在接下來還沒估準前,繼續出錯。
這真的要拼 AlphaGo 形勢判斷錯誤.
但是我們不知道甚麼樣的盤面可以讓 AlphaGo 形勢判斷錯誤, 劣勢誤以為優勢.
也許是大規模攻殺, 然後又走進特定的棋型 (像小李今天那一手) 讓它誤判.
--
: 從這兩個 twitter 來看, AI 在 79 時仍認為自己有 79% 的勝率,
: 直到第 87 手時,才發現勝率驟降。四日棋迷猜測如下:
: AI 估計勝率是經由之後的模擬,白 78 手被認為神手,但或許是之後
: 的巧妙變化是不明顯的,所以 AI 無法知道這手有這麼大的功用,或
: 是說,無法準確的評估此時的盤面。
value network 是給一個盤面 (361 個輸入黑/白/空) 直接告訴你勝率.
基本上盤面幾乎不會重複, 所以每一個盤面都是 AlphaGo 或人沒看過的.
如果是人, 中盤之後可能會開始點空估計目數.
而估錯最可能發生在以為的活棋其實是死棋, 比如說進行中的攻殺.
value network 是餵給它千萬盤面, 然後跟它說最後是贏是輸訓練出來.
遇到新的盤面, value network 根據之前的經驗 (神經連結權重) 吐出結果.
如果單純餵 "361 個輸入黑/白/空" 進去訓練一定完蛋,
因為這樣變成單純的形態學, 長得像某個樣子就以為會輸或會贏.
圍棋很多時候差一路就差很多 (好手的旁邊常是惡手)
所以還會加入 "剩下的氣數" "提子數" "手順" "征子" 等等資訊進去訓練.
如果人類認為 79 手的盤勢黑棋大劣了, 那麼 79 手的盤面 value network
就應該吐勝率陡降的值出來, 而不是等到 87 手的盤面才反應.
如果 AlphaGo 知道 79 手 (甚至更早) 的盤面劣勢, 前幾手就會避免走上這個局面.
但到 87 手才知道劣勢, 這時候已經走上不歸路.
AlphaGo 團隊回去一定是在研究這種盤面為什麼會估錯, 以及要如何調整訓練方式.
: 這提供了要對付目前這版 AlphaGo 的方法,你最好下一些方法是:接
: 下來對你的最佳解跟次佳解,結果會差很多,這樣 AI 用模擬的,就有
: 機會誤判。如果你下的棋,接下來的應對,結果都差不了太多,那 AI
: 自然估得準。讓它估不準,才會在接下來還沒估準前,繼續出錯。
這真的要拼 AlphaGo 形勢判斷錯誤.
但是我們不知道甚麼樣的盤面可以讓 AlphaGo 形勢判斷錯誤, 劣勢誤以為優勢.
也許是大規模攻殺, 然後又走進特定的棋型 (像小李今天那一手) 讓它誤判.
--
Tags:
圍棋
All Comments
By Rebecca
at 2016-03-17T17:16
at 2016-03-17T17:16
By Gilbert
at 2016-03-19T10:38
at 2016-03-19T10:38
By John
at 2016-03-22T17:46
at 2016-03-22T17:46
By Carolina Franco
at 2016-03-26T17:02
at 2016-03-26T17:02
By Bennie
at 2016-03-27T03:50
at 2016-03-27T03:50
By Adele
at 2016-03-27T10:22
at 2016-03-27T10:22
By Adele
at 2016-03-30T11:49
at 2016-03-30T11:49
By Ida
at 2016-03-31T10:07
at 2016-03-31T10:07
By Lauren
at 2016-04-01T07:51
at 2016-04-01T07:51
By Lucy
at 2016-04-02T14:44
at 2016-04-02T14:44
By Hedy
at 2016-04-06T04:35
at 2016-04-06T04:35
By Margaret
at 2016-04-09T15:32
at 2016-04-09T15:32
By Kyle
at 2016-04-12T14:21
at 2016-04-12T14:21
By Zanna
at 2016-04-14T05:11
at 2016-04-14T05:11
By Ida
at 2016-04-18T23:32
at 2016-04-18T23:32
By Charlotte
at 2016-04-22T06:49
at 2016-04-22T06:49
By Charlotte
at 2016-04-26T14:56
at 2016-04-26T14:56
By Megan
at 2016-04-28T19:14
at 2016-04-28T19:14
By Jacky
at 2016-04-29T11:29
at 2016-04-29T11:29
By Damian
at 2016-05-01T20:00
at 2016-05-01T20:00
By Connor
at 2016-05-04T08:30
at 2016-05-04T08:30
By Tracy
at 2016-05-05T06:56
at 2016-05-05T06:56
By Queena
at 2016-05-06T21:23
at 2016-05-06T21:23
By Ursula
at 2016-05-07T09:48
at 2016-05-07T09:48
By Rosalind
at 2016-05-11T22:27
at 2016-05-11T22:27
By Una
at 2016-05-16T05:18
at 2016-05-16T05:18
By Olivia
at 2016-05-19T16:48
at 2016-05-19T16:48
By Sierra Rose
at 2016-05-20T17:26
at 2016-05-20T17:26
By Leila
at 2016-05-23T10:32
at 2016-05-23T10:32
By Agatha
at 2016-05-24T17:13
at 2016-05-24T17:13
By Tristan Cohan
at 2016-05-26T11:22
at 2016-05-26T11:22
By Jack
at 2016-05-29T09:43
at 2016-05-29T09:43
By Brianna
at 2016-05-31T08:58
at 2016-05-31T08:58
By Frederic
at 2016-06-02T03:28
at 2016-06-02T03:28
By Edward Lewis
at 2016-06-04T09:51
at 2016-06-04T09:51
By Selena
at 2016-06-05T23:52
at 2016-06-05T23:52
By Anonymous
at 2016-06-10T21:29
at 2016-06-10T21:29
By Donna
at 2016-06-15T17:42
at 2016-06-15T17:42
By Quanna
at 2016-06-17T21:53
at 2016-06-17T21:53
By Gilbert
at 2016-06-21T07:33
at 2016-06-21T07:33
By Anthony
at 2016-06-23T14:02
at 2016-06-23T14:02
By Catherine
at 2016-06-24T16:35
at 2016-06-24T16:35
By Audriana
at 2016-06-29T10:34
at 2016-06-29T10:34
By Barb Cronin
at 2016-07-02T22:04
at 2016-07-02T22:04
By Rebecca
at 2016-07-04T09:02
at 2016-07-04T09:02
By Belly
at 2016-07-07T12:55
at 2016-07-07T12:55
By Susan
at 2016-07-09T12:22
at 2016-07-09T12:22
By Valerie
at 2016-07-12T03:09
at 2016-07-12T03:09
By Ivy
at 2016-07-15T00:04
at 2016-07-15T00:04
By Olga
at 2016-07-16T01:08
at 2016-07-16T01:08
By Daniel
at 2016-07-18T15:34
at 2016-07-18T15:34
By Anthony
at 2016-07-19T01:57
at 2016-07-19T01:57
By Jessica
at 2016-07-20T02:30
at 2016-07-20T02:30
By Daniel
at 2016-07-22T08:43
at 2016-07-22T08:43
By Edward Lewis
at 2016-07-23T00:47
at 2016-07-23T00:47
By Dora
at 2016-07-26T01:31
at 2016-07-26T01:31
Related Posts
演算法上的Singularity(奇異點)
By Valerie
at 2016-03-13T19:30
at 2016-03-13T19:30
本版賭盤將開出25倍或13倍的超高獎金
By Isla
at 2016-03-13T19:25
at 2016-03-13T19:25
陳耀燁:盼親自對決AlphaGo 欽佩李世石
By Yedda
at 2016-03-13T18:57
at 2016-03-13T18:57
李世石:若重來不選圍棋 3分鐘就答應谷歌
By Doris
at 2016-03-13T18:55
at 2016-03-13T18:55
AlphaGo發現自己79步失誤
By Tom
at 2016-03-13T18:53
at 2016-03-13T18:53