感謝AlphaGo的貢獻,人機纏鬥剛剛開始 - 圍棋

Ethan avatar
By Ethan
at 2016-03-18T00:28

Table of Contents

http://www.guancha.cn/chenjing/2016_03_17_354171_s.shtml

陳經

2016年3月15日人機大戰第五盤,AlphaGo執白280手中盤勝李世石,總比分4:1結束了這場持續一週的圍棋盛事。

我在廣州愛范兒公司和吳肇毅九段一起直播了這場比賽,感覺對機器的招法比較能夠理解。這使得我在這場特殊的比賽中,有時對局勢的判斷比吳九段更為準確,雖然我的圍棋水平不高。下面用幾個圖來解釋一下機器開盤的失誤和技術特色。

http://i.guancha.cn/news/2016/03/17/20160317075154790.jpg

在右邊的常見套路中,AlphaGo選擇了16位擋而不是Q10拆,放黑17位打入,接著繼續18位打,放黑19位沖21位斷,很簡單地就棄掉了三子。粗粗一看黑吃下三子實空不小,但這是AlphaGo的招法創新,黑佈局感覺已經落後了。因為白有A位靠下的手段,會在上面形成一道厚勢,白棋把棋走在外面,對於厚味外勢的價值估計得比人類棋手更準,而且它的整體行棋方式也能與之配合。人類高手出於實戰考慮選擇實地的更多,通常認為虛虛的外勢不太好掌控。從大局觀來看,AlphaGo的理解更合乎棋道。

http://i.guancha.cn/news/2016/03/17/20160317075207784.jpg

這個局面的看點是AlphaGo第48手斷入,然後被黑51全部吃下,虧了不小的目數。這是確定無疑的損失,機器犯了錯。這個錯誤非常像AlphaGo和樊麾的第三局,它也是在黑右下大空裡走了幾手,沒有棋卻損了空。為什麼它這麼下?

48手這個斷是很明顯的直覺要點,在AlphaGo的策略網絡裡估計會是排名很前的選擇。後續搗亂可以連續多招,黑要小心應對,下錯了就立刻完蛋。黑應對了,白可以繼續「考驗」黑。AlphaGo也會用策略網絡模擬黑的應對,正確應對的招數肯定有,但也有錯誤的建議給出來。這樣,連續搜索展開後,在不少葉子節點AlphaGo高興地發現黑應錯了被白一舉擊潰。就算黑一直應對正確,最後白損失也不大,能夠完封右邊中,大局上還是自己好。

所以,蒙特卡洛模擬(MCTS)對48這手給出的勝率評分會比較高。這應該算是AlphaGo算法框架的一個bug。AlphaGo願意下這種「局部變化複雜,對手應對錯誤自己立刻勝利,應對正確自己稍虧但大局還好」的辣招。對人類高手來說,這種計算應該不難,所以就佔了便宜。48手算是虧目較多的一次小bug,但是局面還早。這時AlphaGo對自己的勝率估計應該比下出48手時低一些了,它終於知道吃了虧,但當初就是願意去這麼試。因為手數較多,它下48的時候並不知道會虧。只有定型的差不多了,才覺得算清了,沒有東西。

同樣原理的著手在收官階段出現多次,AlphaGo幾次在一路撲吃被提。它不虧,不會減少自己的勝率,萬一對手不應還提高了勝率,損了劫材但反正它不想打劫。我估計這類著法是它的策略網絡向人學習的,人經常在後半盤打劫、讀秒打將的時候下這種一路撲。AlphaGo不理解人的意圖,但把招學了過去。學過去發現能提高勝率,就這麼用起來了。

象48手虧空這樣的小bug是人可以利用的。如果人類高手完美發揮,各個環節都頂住,可能下和平的收空棋也能贏它了。但難度會很高,AlphaGo在劃分地盤這個環節實在太厲害了。這種棋要做的選擇非常多,哪步能佔更多的空人沒有特別好的精確測算方式,只有靠感覺為主。而AlphaGo用幾百萬次模擬來統計性地判斷,比人要準得多。這是AlphaGo的核心能力,大局觀碾壓人類。

http://i.guancha.cn/news/2016/03/17/20160317091741517.jpg

不少職業棋手認為李世石69過於靠上,被70鎮頭攻擊局勢很不利。具體應該在哪吊,說法很多。不管黑下哪,這種局面是AlphaGo擅長的。它不一定要成哪一塊空,黑進來它各種方法都會模擬試一下。如果模擬發現退縮不行,它就會進行鎮頭分斷攻擊,最後往往會將成空潛力轉移到另一片地方去。最後人下來下去,總是被它在某個區域圍出很大的一片空。這種以厚勢為基礎的浮動攻擊,靠吃棋威脅最後把虛空做實的下法,真的是很賞心悅目。

人類棋手評棋時往往會覺得,是不是破空手法不對啊,是不是該往這個方向跑,是不是打入深一些才好,是不是進得太深了。我認為這很可能是根據結果來看的馬後砲。在這種局面下,擁有厚勢的一方可能已經有了局面的主動權,AlphaGo根據自己的評分還是判斷得比較準的,你怎麼進來它都有應對的辦法。

http://i.guancha.cn/news/2016/03/17/20160317075248861.jpg

李世石如果選擇正確,可能情況會好些。可是實戰幾乎所有人都發現黑大虧了,自己兩眼苦活,白左上角已經活了,中間又瞬間出現大空。這時白下出了100這手棋,人們應該立刻意識到這等於是「勝利宣言」。這手很有味道,它並不是試圖在左下圍更多的空,而是準備讓黑打入做活,但白也消除所有不安定因素收官穩穩獲勝。下C5之類的點是可能圍空更多,但黑仍然可以進來搗亂,黑右下的厚勢就有用了。還不如用100這手消除任何變數。這種思維是人很難有的,它不去在裡面守,反而在外面用堅實的拆一來守。

後半盤黑的掙扎都沒有用,AlphaGo展現了高超的局面控制能力。最後認輸時李世石盤面領先5目,是因為電腦想穩勝,讓了一些回去。

這局李世石算是成功地測試出了AlphaGo開局虧目的一個小bug,但由於自身發揮有問題,還是被AlphaGo控制了,基本沒有機會。李世石的大局觀和局面判斷比AlphaGo要差很多,右下意料之外的收益可能反而害了他,讓他以為領先優勢不小,後面沒有果斷出手製造第四局賴以獲勝的複雜局面。這局也沒有製造出劫爭,AlphaGo避劫照樣控制大局。

在總共五局高水平對局中,AlphaGo確實表現出了令人歎為觀止的技術水平。可以非常有把握地預測,以AlphaGo為代表的新一代圍棋AI將有超過職業棋手的技術實力。而人類的圍棋水平在人工智能程序的幫助下,會取得突飛猛進,特別是在大局觀上的認識。機器即使在圍棋上完全戰勝了人,也不是災難。

可以看看國際象棋領域已經發生過的事,有助於圍棋界正確認識機器的作用。國際象棋程序的等級分比人類最高水平還高四五百分,對人類可以讓一個兵或者二先,平下人最好結局只是和。人們已經完全承認AI水平遠高於人,用它們來更新佈局理論,研究新手,在人與人對下時應用。這樣人的水平也取得了飛速進步,國際象棋大師越來越多。這次人機大戰圍棋的關注度空前提高,這對圍棋發展是非常有益的。所有熱愛圍棋的人,都要感謝AlphaGo的貢獻。

但另一方面,圍棋也將通過人類高手與機器的反覆纏鬥,以一種前所未有的方式展示其自身的魅力。AlphaGo與李世石的五盤人機大戰,只是一個開始。不少新聞分析說,圍棋人工智能將很快全面戰勝人類,我認為這是不正確的。

理論上來說,因為劫的存在,圍棋是一種「上下文有關文法」,同樣一個局面,前一招是不是提劫,後續邏輯就會完全不一樣(按中國規則禁止全局同形再現,有更多形式的「上下文有關」,但最常見的是劫)。而國際象棋、中國象棋等棋種是「上下文無關文法」,當前局面如何形成的不影響後面結果。圍棋的複雜性,廣為人知的是狀態空間數比國際象棋多100多個0。但是從圍棋藝術和計算機算法角度來看,這種「上下文有關」造成的複雜性,遠遠超乎人的想像。

下棋的人都知道,劫是讓圍棋的境界與藝術性大大昇華的一個東西。基於MCTS的國際象棋程序,因為「上下文無關」,可以用多次模擬完美逼近看似很大的搜索空間。但是在圍棋上,「上下文有關」的劫,因為可以在全盤任何一處找劫,MCTS算法的分枝數量瞬間爆炸,對搜索質量造成毀滅性的打擊。這還只是一些簡單的劫爭。如果再考慮緩氣劫、兩手劫、連環劫、多劫循環,可以說圍棋搜索算法僅僅只摸到打劫的邊,根本沒有深入劫爭問題的核心。

可以想像將圍棋盤擴大到21路,狀態空間數又多幾十個0,AlphaGo訓練之後在劃分地盤這個核心能力上還是可以超過人類,並不怕狀態空間增多。但是就算棋盤縮小到17路,AlphaGo也還是不喜歡打劫。只要還是MCTS算法框架,面對劫爭程序開發者想過各種處理辦法,都沒能很好應對複雜的劫爭。谷歌團隊也不太可能在這個問題上取得突破性進展。

可以非常有把握地說,打劫的能力將是人類遠遠強於圍棋程序的地方。但是這個問題上機器也不是沒有出路,AlphaGo就向我們展示了如何通過避開劫爭分枝來控制局面。人類如何通過行棋,將機器逼得不得不打劫,會是一個很有意思的技術問題。從圍棋理論上來說,一方不怕打劫,一方拚命避劫,總是善於打劫的一方有利一些,高手善打劫。人類最高水平的棋手打劫能力是9段,機器的打劫能力可能只有業餘3段。按AlphaGo把劫材走光的風格,它不可能是一個劫爭高手。但是人類高手也沒有這樣的經驗,如果將一個不配合的卻棋藝高超的對手逼入劫爭。

在對於非確定地域的價值估計上,AlphaGo可以通過幾百萬次收完算子的統計模擬,對人類有著壓倒性的技術優勢。表現出來就是大局觀非常好,人類最高水平是9段,AlphaGo可能有13段。

在封閉式局部的戰鬥中,AlphaGo對人類最高水平也仍然有優勢。因為人類存在算不清、得失判斷不清的問題。這方面的能力對比AlphaGo是10段,人類是9段。

在多個頭緒關聯的開放式接觸戰中,不需要引入劫爭的複雜,AlphaGo的搜索模塊也會碰到不小的麻煩。因為頭緒多,對殺結果決定勝敗,只有人類高手能理清邏輯,找到正確的行棋路線圖。在這種複雜盤面,AlphaGo的三大搜索武器,價值網絡、快速走子策略、策略網絡全都失靈,就會忽然出現怪異的行棋選擇。這是人類戰勝機器最有希望的領域,人類是9段,機器只有業餘5段。

在局部區域的定型手法中,AlphaGo出現了不保留變化早早定型的傾向。有些局面還會過早把手段使出來,以目數絕對虧損收場。這都是小問題。而人類心理狀態不穩定,很難做到持續穩定地發揮出最高水平,是一個大問題。

總體來說,AlphaGo和人類高手風格迥然不同。事先分析,AlphaGo和人類高手各有所長,交鋒起來看點十足。AlphaGo會的,是在實戰中最經常使用的。以大局觀為基礎的行棋方向選擇,是行棋中最常用最實用的本事,AlphaGo遠超人類。在局部接觸戰中,AlphaGo擁有類似於窮舉的戰鬥力,人類佔不到便宜(虧目是AlphaGo為了提升勝率的小bug行為,明知殺不過也下。真正對它有利的戰鬥,它不會放過)。

這兩項本事都是最常用的,所以AlphaGo平時行棋就帶有一種獨特的魅力,時不時讓人類驚嘆它的判斷力與創造力。人類如果在這兩項技術上和AlphaGo鬥爭,將毫無勝算,甚至差距會越拉越大。

而人類需要有意地將局面引入對自己這方有利的格局中。通過劫爭,複雜盤面多處頭緒關聯分析,在適合於自己的戰場將AlphaGo擊潰。人類互相之間針鋒相對,很容易到達這種局面。然而AlphaGo會有意繞過劫爭分枝,搶先定型簡化局勢。

雙方這樣各有所長,又特點鮮明,持續纏鬥起來會非常火爆,看點十足。我非常期待,職業棋手們能夠普遍瞭解AlphaGo的特性,制定正確的迎戰策略。而雙方又無疑會互相學習,試圖減輕自己的弱點,學習對方的長處。如谷歌可能會通過持續訓練與研發,將AlphaGo的弱點隱藏得更深。而人類一方面加強自己的大局觀與局部手段,另一方面又動腦筋去使出手段將局面引導入劫爭、複雜盤面。從圍棋藝術發展來看,這會是一個非常激動人心的歷史機遇。

因此,要非常感謝谷歌研發出了AlphaGo這麼一個威力強大又十分有趣的好東西。人類與機器激動人心的纏鬥不會很快結束,雙方的優勢與弱點都會長期存在。圍棋作為計算機算法「完全信息博弈」問題中當之無愧的皇冠,會進一步展示出它真正的魅力,不會一下子被突破,很長時間內還會是核心難題。人類也會不斷向機器學習它擅長的領域,提高自己的技藝。圍棋歷史上又一次意義巨大的革命已經在發生。

--
Tags: 圍棋

All Comments

Quanna avatar
By Quanna
at 2016-03-18T20:41
Susan avatar
By Susan
at 2016-03-20T01:11
這篇一堆錯誤,首先第五盤右下角吃虧是鐵定的,只是高
手沒有看的這麼嚴重。其次第三盤阿發狗像我們宣示了他
打劫有多強,綜合實力樣樣具備的呢!
Aaliyah avatar
By Aaliyah
at 2016-03-22T04:02
爆走狗狗以成謎
Robert avatar
By Robert
at 2016-03-24T08:39
第三盤那種狗才是王者

李世石人情味打動女性 人氣超太陽的後裔

Adele avatar
By Adele
at 2016-03-18T00:05
李世石人情味打動女性 人氣飆升超太陽的後裔  據韓國中央日報報導。宋國熙‧尹正民‧李昌均‧白秀珍 記者   “AlphaGo毫無保留地展示了人工智慧的發展狀況,李世石九段則展示了只有人類所 具有的勇氣和挑戰精神。”   3月15日,在首爾站候車室內,關注李世石九段和人工智慧(AI)AlphaGo最後一局 ...

為什麼世界排名的前幾名都偏年輕?

Madame avatar
By Madame
at 2016-03-17T21:59
※ 引述《joylin137 (飄漾)》之銘言: : 以前曾經短暫學過圍棋,能夠藉由這次人機大戰重溫還滿開心的 : 但我有個疑問 : 查了一下世界排名的前幾位都很年輕 : 像柯潔才十八歲就世界排名第一 : 圍棋應該跟運動選手不一樣沒有年齡上的障礙吧,畢竟還是以動頭腦為主 : 我稍微查了一下,有種說法是說因為跟 ...

圍棋比賽 可以 call out嗎?

Skylar Davis avatar
By Skylar Davis
at 2016-03-17T21:48
※ 引述《Z9 (為什麼我這麼帥)》之銘言: : 標題: [問題] 圍棋比賽 可以 call out嗎? : 時間: Wed Mar 16 13:26:21 2016 : : : 小妹是一日棋迷, : 這次剛好看了 alphaGo 九段 和李世石 九段 精采激烈的攻防, : 但比賽到一半,小李有跑出去抽煙,或 ...

圍棋帥哥?

Quintina avatar
By Quintina
at 2016-03-17T20:57
※ 引述《godroid (嘎)》之銘言: : 台灣的圍棋界有年輕帥哥嗎 : 不一定要厲害到有頭銜的 : 只要有教學能力的 : 馬英九如果卸任後 : 時間很多 : 也許會想學圍棋 : 台灣有圍棋男老師很帥的嗎 : atat 其實這也是另一條振興圍棋的路子-- 圍棋帥哥吸引妹子來學 --andgt; ...

人機大戰不一樣的李世石 遺憾獨有風格沒

Franklin avatar
By Franklin
at 2016-03-17T20:42
人機大戰不一樣的李世石 遺憾獨有風格沒發揮  據韓國中央日報報導   結束了與谷歌人工智慧(AI)AlphaGo的世紀對決后,李世石九段3月16日同家人一道 前往濟州島旅行。記者通過在五局對弈中負責讀秒、近距離觀看李九段比賽的計時員鄭 宥貞(音,22歲,明知大學圍棋學院二年級)了解到賽場內的情況。已經有7 ...