絕藝負責人：用全新強化學習方法造就更強 - 圍棋

By Agatha
at 2017-03-23T20:39

Table of Contents

絕藝負責人：用全新強化學習方法造就更強模型
2017年03月23日15:34 新浪體育微博

http://n.sinaimg.cn/sports/transform/20170323/tqau-fyctevp6241491.jpg

　　文章來源：李澤南、吳攀機器之心

　　3 月 19 日，在全部由人工智能參加的 UEC 杯世界圍棋大賽中，絕藝戰勝了所有對
手。據介紹，在本次比賽結束後，騰訊 AI Lab 將公開『絕藝』技術細節，助推圍棋 AI
發展。機器之心第一時間專訪了騰訊 AI Lab 高級總監、『絕藝』團隊負責人劉永升，他
向我們揭示了『絕藝』背後的祕密。

　　機器之心：時間撥回到比賽之前，你們有討論過可能出現的賽事結果嗎？或者說當時
有奪冠的信心麼？

　　劉永升：UEC 杯本來就是個學術和技術交流的平台，有世界各國一流圍棋 AI 強手，
我們是抱著和優秀同行進行學術切磋交流的心態來的，獲勝了一方面很激動，一方面覺得
也是很幸運。

　　機器之心：回憶起比賽的情形，有哪些印象深刻的片段？技術難點主要有哪些？

　　劉永升：（決賽）下到中盤一度非常緊張，能明顯感覺到 DeepZenGo 的棋力和循環
賽相比又有提升，是一位非常值得尊敬的對手，絕藝表現很出色。

　　機器之心：能否評價一下本次比賽的對手（特別是 DeepZenGo 與 CrazyStone）？

　　劉永升：過去幾年，它們一直是圍棋 AI 的王者，為圍棋 AI 的發展做出了很大的貢
獻。過去一年，它們都成功把神經網絡新技術應用到原來的系統中，大幅度提高了棋力，
特別是 DeepZenGo，對職業棋手已經有非常高的勝率。職業棋手對其評價是非常不錯的。

　　兩天的比賽中我們絕藝和 DeepZenGo 交手兩次，每次都非常膠著，前面 100 手都是
難分難解。絕藝的中後盤相對而言會有一定優勢，所以兩次都笑到了最後。

　　機器之心：據瞭解，騰訊 AI Lab 的 13 人團隊花近一年時間研發打造了絕藝，開發
團隊成員的背景是怎樣的？有圍棋高手嗎？

　　劉永升：絕藝團隊有 13 人，一半人做算法研究，一半人做算法實現。所有成員全部
隸屬騰訊 AI Lab，Lab 於 2016 年成立，專注與 AI 領域的基礎科學研究和應用探索，
目前有 50 餘位世界知名學院的 AI 科學家（90% 為博士）、及 200 多位經驗豐富的工
程師。

　　負責『絕藝』的團隊裡，有喜歡圍棋的，也有一開始對圍棋一無所知。但指導團隊的
人裡有一些高手，AI Lab 負責人姚星先生是業餘 2-3 段，AI Lab 所屬的 TEG 事業群總
裁盧山先生是業餘 5 段，我們還特別邀請了職業九段的羅冼河先生作為『絕藝』的專業
陪練。更不用說，騰訊圍棋上眾多高手，可以毫不誇張，『絕藝』就是一個跟著棋手一起
成長的圍棋 AI。

　　『絕藝』背後的技術

　　機器之心：我們知道，在強化學習中，最優策略和最優價值函數都是全局最優解，而
不是局部最優解。最優策略是在決定下一步應該下什麼棋，後面會保證贏面最大。騰訊報
導絕藝的新聞中出現的『微觀』和『宏觀』怎麼解讀？

　　劉永升：通俗的說，『策略』指每一步博弈時，各種選擇的取捨，選好棋棄差棋，這
是偏微觀評估，也就是每一步的判斷；而『價值』則指能看懂棋局，判斷給定棋局是不是
能贏，這是偏宏觀的評估，也就是圍棋裡的大局觀。

　　機器之心：Monte Carlo 搜索樹是 AlphaGo 中的一項關鍵技術。絕藝中用到了嗎？

　　劉永升：用到了。

　　機器之心：騰訊的另一篇報導中也提到『在絕藝的成長過程中，與人類棋手對弈是絕
藝強大起來的重要原因，絕藝的突破性進展總是伴隨其戰勝某一實力水平的棋手出現。』
我們知道，在 AlphaGo 中，人類棋手的棋譜幫助學習了快速走子策略（Rollout policy
）和監督學習策略（SL policy）；後者做為學習強化學習策略（RL policy）這個非凸優
化問題的初始值。初始值的設定可以幫助更快地學習到更好的策略；但是初始值並不決定
最終學習到的策略的質量。絕藝的進步『得益於世界超一流棋手的指導』，這樣的說法，
請解釋一下。

　　劉永升：絕藝研發過程中，如何評估棋力以及存在哪些問題是非常困難的。並且隨著
絕藝棋力提升，普通的棋手基本無法戰勝的時候更難暴露其不足。所以，絕藝的研發過程
中得益於世界超一流棋手的指導，非常難能可貴，對研發進度有非常大的幫助。

　　機器之心：AlphaGo 訓練過程基本可以看成在解一個優化問題，自動完成，沒有人工
干預。騰訊關於絕藝的新聞，在強調世界超一流棋手的重要性；超一流棋手如何與優化問
題結合？還是絕藝中有人工設計的規則？

　　劉永升：手工干預是過去式，絕藝是完全端到端的決策過程。世界超一流的棋手，主
要是分析 AI 的棋局，得出當前存在的問題，從而分析系統深層的原因，最終確定修復點
。

　　機器之心：絕藝這套系統設計思路是怎樣的？相比去年 3 月戰勝圍棋大師李世石的
AlphaGo（AlphaGo 也是用的策略網絡與價值網絡），絕藝實現了哪些突破？

　　劉永升：『絕藝』的學習主要包括人類棋譜數據庫和機器自對弈，它的算法基於策略
網絡與價值網絡兩大核心，並創新性地大幅提升了價值網絡的精度，使其大局觀表現更好
。

　　關於絕藝的技術和數據庫細節，我們將通過論文進一步公佈，希望通過開放合作的研
究，希望幫助和啟發更多研究者，推動圍棋 AI 發展。敬請期待。

　　『絕藝』背後，是深度學習和強化學習這兩個機器學習十分熱門的研究領域，它的總
體框架遵循 AlphaGo 去年 1 月在《Nature》上發表的文章，是一個純機器學習系統，但
在實踐中做了超出論文的創新。

　　舉例來說，現代強化學習的核心，是用先進的機器學習算法作模擬器，生成高質量、
實際有效的數據（experience replay）- 這個過程在圍棋 AI 中被稱為自對弈。通過這
個方法，可以讓得學習到的模型不斷通過強化生成的數據來自我提高。

　　在訓練『絕藝』的機器學習模型過程中，我們探索了一些全新、而且非常有效的強化
學習方法，能創造出更優質的自我模擬數據，從而導致了更強的模型。比如，和很多其他
圍棋 AI 相比，絕藝的對殺能力會更強。AI Lab 構造『絕藝』的經驗，積累了一系列有
效的方法，可以通過自我學習產生高質量的強化學習數據。這些方法可以應用在很多別的
場景之中。

　　至於大家很關心的硬件系統，『絕藝』的線上系統有單機版和多機版：單機版測試過
，差距和多機版沒有大家想的那樣大。而多機版所用的機器資源比 DeepMind 公開數據所
透露的要少，所以絕藝不用靠資源取勝。

　　此外，在訓練中絕藝利用了騰訊的云計算資源生成高質量數據，這些計算資源在行業
內都可以通過騰訊云對外服務直接獲取。

　　未來的研究方向

　　機器之心：騰訊在圍棋人工智能技術上的研究（或者說強化學習技術）可以被借鑑到
哪些實際生活的應用中？可以舉例說明一下嗎？

　　劉永升：從應用價值上，短期看，騰訊圍棋是本身國內最大、最活躍的的圍棋平台之
一，做得好，可能馬上就會有很多人能用上。中期看，AI Lab 關注四大應用方向：內容
AI、遊戲 AI、社交 AI 和平台工具型 AI。圍棋 AI 就和其中的遊戲 AI 密不可分，是
騰訊獨有且頗有創新潛能的應用場景。長期來看，『絕藝』背後『精準決策』的 AI 能力
，也能在無人駕駛、量化金融、輔助醫療等地方應用。如果從圍棋 AI 的完美對稱博弈系
統，進化到不完美對稱博弈系統，也就是能處理現實中更常見的不確定性問題時，這裡的
想像空間非常巨大，當然也是比較長遠的應用了。

　　在我暢想一下未來的時候，我覺得 AI 未來不僅僅是一款成熟的產品，而是真正的深
入到所有的大眾的心裡面去，就是每個人都會讓有 AI 在幫助到他。

　　機器之心：一直以來圍棋都被認為完美信息博弈領域的聖盃，在去年的人機大戰之後
，人們的關注重點也漸漸轉移到了不完美信息博弈上。德州撲克方面的博弈已經取得了很
大的進展——AI 在一對一無限制比賽上已經戰勝了人類，DeepMind 則又開始了《星際爭
霸 2》的研究。騰訊 AI Lab 目前有在不完美信息博弈方面的研究工作嗎？請給我們介紹
一下目前的進展。

　　劉永升：遊戲 AI 領域，我們確實在從事一些很有意思的相關研究，但具體細節要之
後才能公佈。

　　機器之心：除此之外，AI Lab 還在進行哪些方面的研究？

　　劉永升：AI Lab 的研究主要基於四個垂直領域，計算機視覺（Computer Vision）、
語音識別（Speech Recognition）、自然語言處理（Natural Language Processing）和
機器學習（Machine Learning），基本上涵蓋了當今 AI 最前沿的方方面面。每個領域代
表一個基礎研究方向，又都能進行深層次的研究拓展。

　　比如在計算機視覺領域，除了傳統的圖像處理，還有增強現實（AR）的研究拓展，也
會引入空間定位（Simultaneous Localization and Mapping）技術；在語音識別領域，
除了傳統語音識別、語音合成以外，還會引入自動翻譯（Translation）；在自然語言處
理，除了傳統的對人認知行為的研究，還會研究聊天機器；在機器學習領域，從監督類到
無監督的機器學習，再到強化學習的機器學習都有。

　　從騰訊業務出發，AI Lab 還提出四大專屬研究方向：內容 AI（Content AI）、社交
AI（Social AI）、遊戲 AI（Game AI）和平台工具 AI（Cloud AI）。

　　內容 AI，是基於內容類的推薦和搜索類的應用；社交 AI，作為一個社交基因很強的
公司，QQ 、QQ 空間和微信都是社交平台，所以會基於社交研發相關 AI，如社交中的對
話、聊天機器人、智能助手等。和全世界其他公司不太一樣的方向是遊戲 AI。遊戲是騰
訊一塊很大的業務，在遊戲裡引入 AI 能力的想像空間非常大，未來是不是能看到 AI 參
加 LOL 世界電競大賽，提升整個遊戲可玩性和趣味性呢？最後是平台工具類 AI，未來希
望能開放這些能力，如基於圖像的人臉識別、語音識別、自然語言處理中的輿情分析處理
，及深度學習平台等能力。

　　機器之心：有人說人工智能將圍棋提升到了一個新的境界或者說開啟了全新的思路，
騰訊的野狐平台甚至也可能為此增設了『十段』的水平，實際上絕藝也是第一個獲此段位
的棋手。您認為人工智能的發展是否將給人類的傳統帶來新的啟迪？

　　劉永升：只從圍棋看，絕藝的大局觀以及對一些定式的變換，可能會給人類棋手不少
啟發。

　　我們希望絕藝能代表一種科技的責任感——圍棋 AI 能積極與人類棋手互動，激發更
多人關注並傳承圍棋文化。騰訊 AI Lab 的願景是『Make AI everywhere』，就是說『讓
AI 未來無處不在』。讓科技能夠『賦能於人』，讓我們的生活更美好。

　　機器之心：絕藝即將在 3 月 26 日舉行的『電聖戰』人機大戰（對陣日本棋手一力
遼七段）出場，您認為這次絕藝的勝算有多少？

　　劉永升：我們有一定信心，但還是以交流和切磋為主要目的。

　　但是圍棋的價值取向很多元。除了勝負，還有文化、藝術、娛樂。絕藝贏得比賽，不
是 AI 擊敗人類，也不是科學擊敗圍棋，這裡沒有贏家或輸家，是多贏的。

http://sports.sina.com.cn/go/2017-03-23/doc-ifycstww0799124.shtml

--

Tags: 圍棋