第四局AlphaGo敗招的分析 - 圍棋

Aaliyah avatar
By Aaliyah
at 2016-03-14T23:43

Table of Contents


剛才在知乎看到 DarkForest (Facebook 的圍棋 AI) 的作者寫了這篇新文章

對 AI 運作方式 (DCNN/MCTS) 有興趣的人可以參考看看 :p

---

作者:田淵棟
知乎原文連結:http://zhuanlan.zhihu.com/yuandong/20644427

第四局李世石的78手L11挖被大家譽為「神之一手」,在DarkForest的策略網絡輸出裡排
第31位,而J11靠排第10位。因此我覺得可能是AlphaGo沒有算到這一步。如果對方下了一
手機器沒算到的棋,則蒙特卡羅(MCTS)搜索樹會清空,然後重新開始搜索,不應該會太
快做出結論。李喆六段告訴我K10這一手是秒下,那有可能是時間管理子系統在搜索樹清
空時有程序上的漏洞,因此過早地將搜索結果返回了。 MCTS在一開始搜索的時候,因為
模擬次數不夠多,每步的勝率方差非常大,所以返回一個不夠好的著法如K10是很正常的
(在DarkForest裡面這著排在前四)。這個比較容易修正。

另一種可能是,AlphaGo的估值網絡出了問題。因為估值網絡的權重是0.5,而不管快速走
子從一個局面開始重複了多少次,它的權值也是0.5。對於一個局面,估值網絡只得到一
個數,而從這個局面往下走子,走多後會得到很多個數,統計上應該更為重要,但是
AlphaGo不是這樣想的,兩邊各自算得勝率後直接對半平均了。所以如果估值網絡對某個
局面得到的結果不對,則會極大地影響對該局面的勝率估計。注意這裡得到很多個數的原
因是按照文章,葉結點在積累了一定盤數後(40)才展開,而不是第一次訪問就展開,以
提高DCNN的效率。 DarkForest沒有用到估值網絡,在L11的挖之後正確地返回了L12和L10
這兩個應手,據李喆六段說,都是正確的應手,這間接支持了這個推斷。 AlphaGo在87手
之後才意識到自己已經大大落後,可能也是由於同樣的問題,比如說把右邊的黑大龍看成
活的。

那為什麼估值網絡會出問題呢?可能是用於訓練估值網絡的自學習(Self-Play)的樣本
分佈有盲點。為了提高樣本生成速度,AlphaGo的自學習樣本是通過用兩個純粹的DCNN互
搏來生成的(完全沒有搜索),而DCNN下出來的棋因為是純模式識別,一個大問題是死活
不正確,經常是在死棋裡面下子。如果黑白兩方都犯了死活不分的毛病,然後一方比如說
白僥倖勝了,那估值網絡就會認為方才白的死棋局面是好的。這樣估值網絡就會染上同樣
毛病,在中盤複雜的對殺局面中判斷失誤。若是這種情況就不好處理,AlphaGo下一局可
能還會有同樣的問題。這裡可以看到,電腦本身也不是靠窮舉來下棋的,圍棋畢竟太複雜
,每一步都要剪枝,離當前局面近的仔細剪(用DCNN),離當前局面遠的快速剪(快速走
子),直到終局得到勝負為止。剪枝的好壞直接關係到棋力的高低,DCNN只是一個有大局
觀的非常好的剪枝手段,它的盲點也會通過敗著反映出來。

關於DCNN+MCTS打劫。首先因為MCTS是全局估計分數的,劫爭本身和其它局面在程序看來
沒有本質區別,都只是一步棋而已。劫的特殊性在DarkForest上表現為碰到有劫可提的情
況時,DCNN經常會以非常高的概率(0.8以上)返回提劫這一手。可能的原因是,劫點是
作為單獨的特徵輸入的,所以DCNN學習到了它和輸出(提劫)的強關聯性。這樣在MCTS搜
索時會強烈偏向這一手。這在很多情況下是正確的,但有時劫很小可以不予理會,或者碰
到兩個或者多個劫需要放棄一個,那「遇劫必提」的偏向性就會給搜索帶來麻煩。有時連
環劫電腦反覆提就是這個原因。 AlphaGo可能會有這個問題,或者是反向的問題(比如說
提劫概率很小),這樣在下棋時大家就會感覺到它在避免開劫,或者在含劫的變化中計算
失誤。

關於地平線效應(Horizon Effect)。國象的AI裡面會有這個效應,比如說只搜索10步
,計算到別人的后被自己的后吃了結束,然後用簡單的加和法估計下盤面發現自己多個后
特別爽,覺得這個分支特別好。其實再往下走一步自己的后也被別人吃了,或者掉入陷阱
,這樣就誤算盤面價值。但是圍棋因為每次模擬都是走到底的,可能前30步是用DCNN,之
後就是用快速走子,雖然走子質量上有差距,但是大方向上不會錯,所以地平線效應在某
種程度上是減弱了。而且這次AlphaGo的失誤在20步以內,應該還在DCNN的範圍裡面,所
以地平線效應的可能性比較低。


--
Tags: 圍棋

All Comments

Tom avatar
By Tom
at 2016-03-19T00:30
如果是第一點那有工程師今年分紅獎金可能要減少了 XD
Faithe avatar
By Faithe
at 2016-03-23T08:12
是皇「后」不是皇「後」,繁簡轉完要再看一次啊
Steve avatar
By Steve
at 2016-03-26T04:36
同意這一篇的論點
Emily avatar
By Emily
at 2016-03-26T19:53
已修改,謝謝s大~
Isabella avatar
By Isabella
at 2016-03-30T12:32
這篇比較合理
Tom avatar
By Tom
at 2016-03-31T19:44
推這篇
Kama avatar
By Kama
at 2016-04-04T04:54
推專業內容
Quanna avatar
By Quanna
at 2016-04-07T18:09
Candice avatar
By Candice
at 2016-04-10T10:45
看嚨無
Quanna avatar
By Quanna
at 2016-04-11T01:37
要先看上一篇啊 對程式架構解釋的很清楚 一般人也可以懂

ponanza橫掃業餘強豪

Dinah avatar
By Dinah
at 2016-03-14T22:23
為電王戰暖身的例行企劃:挑戰軟體電王贈高額獎金, 在12、13兩日進行。 去年有業餘強者抓到去年冠軍AWAKE的bug, 順利的拿下了100萬日圓的獎金, 也間接造成了正式對戰當中,阿久津八段用類似套路擊倒AWAKE。 今年則是由公認最強軟體ponanza出陣, 在近期圍棋軟體AlphaGo獨領風騷下, ...

Re: 從象棋觀點看AlphaGO為什麼會輸

James avatar
By James
at 2016-03-14T22:10
其實寫得很好! 只是有些許地方我覺得有些疑問 : 會下出黑101的理由同上 電腦算不出分數更高的棋會傾向「維持現狀」... : 奇怪了我怎麼突然覺得我的用詞有政治意味............XDDDDDDDDD alphago會不會傾向於維持現狀,我不是非常了解。 主要疑惑點在於官子 http:// ...

葉罡廷7段 人機大戰第3.4盤實況影片

Doris avatar
By Doris
at 2016-03-14T21:07
https://www.twitch.tv/mariakoutei42/v/54374930 人機大戰第3.4盤實況影片出爐~~~ 終於破100人啦(灑花 謝謝大家收看 可以的話幫我粉絲頁按個讚!! -- Sent from my Windows - ...

或許類似征子的大型單行道棋形才是弱點

Christine avatar
By Christine
at 2016-03-14T21:02
這幾天看來看去似乎最多篇文章都是想要針對打劫來突破 不過很少人討論征子...我個人覺得這可能是一個突破點 (其實我覺得#1MveEG8q 這篇內文和推文有些跟我想法就有點相似...) 為什麼會覺得征子是一個突破點呢 因為他是一個手數很長的單行道 以前AI用的Alpha-Beta系列演算法和現在 ...

韓媒:不應神化人機圍棋戰 阿爾法應受尊

Edward Lewis avatar
By Edward Lewis
at 2016-03-14T20:25
韓媒:不應神化人機圍棋戰意義 阿爾法應受尊敬 北京時間3月14日消息,在人機世紀大戰的第四局比賽中,此前連贏三局拿下賽點的穀歌 (Google)旗下的Deep Mind開發的阿爾法圍棋(AlphaGo)出現失誤,把勝利拱手讓給了 韓國頂級棋手李世石九段,遭遇到了首場失利。不少人都對迄今一直表現冷靜、顯示出 ...