DeepMind揭露新一代AI系統MuZero - 圍棋

Caroline avatar
By Caroline
at 2021-04-04T11:38

Table of Contents

https://www.ithome.com.tw/news/141845

DeepMind揭露新一代AI系統MuZero:不知遊戲規則也能有效規畫行動

新一代AI系統MuZero能在完全不知規則的情況下,熟悉圍棋、西洋棋、將棋,以及57款
Atari遊戲,且效能大幅超越了現有最佳的DQN、R2D2與Agent57系統,可望用來解決現實
生活中,規則太複雜或完全不知規則的各式難題。

文/陳曉莉 | 2020-12-24發表

Alphabet旗下的人工智慧子公司DeepMind,繼發表了圍棋AI系統AlphaGo,以及同時精通
圍棋、西洋棋與將棋的AlphaZero之後,於本周再度揭露了新一代AI系統MuZero,它能夠
在完全不知規則的情況下,熟悉圍棋、西洋棋、將棋,以及57款Atari遊戲,且效能大幅
超越了現有最佳的DQN、R2D2與Agent57系統,可望用來解決現實生活中,規則太複雜或完
全不知規則的各式難題。

比較DeepMind的幾代產品,2016年的AlphaGo是透過已知的規則、圍棋領域的知識,再加
上人類資料訓練而成,讓它擊敗了全球的圍棋好手;2017年的AlphaGo Zero,則是僅利用
已知規則,自我學習而達到與AlphaGo同樣的境界;2018年的AlphaZero也是僅基於已知規
則,但把挑戰範圍從圍棋擴大到西洋棋與將棋,便能同時精通這3項棋戲;而最新的
MuZero則未被餵入任何的已知規則,在未知的動態環境下就能自動學習規則並作出最佳判
斷,且MuZero系統把挑戰範圍從上述的圍棋/西洋棋/將棋,擴大到Atari出品的57款遊戲
,並取得優秀的成績。

DeepMind團隊說明,規畫是人類智慧的一項重要能力,讓人類能夠解決問題並替未來作出
決策,人類通常很快就可以學到計畫的能力,同時也能延伸到新的場景,而這也是該團隊
期許AI系統能夠達到的。

研究人員最初試著透過兩種作法來解決此一問題,包括超前搜尋(lookahead search)與
基於模型的規畫能力,但前者必須仰賴諸如規則或精確模擬器等環境動態的知識,讓它難
以適用於解決複雜且通常缺乏簡單規則的現實世界問題;後者雖然可藉由學習環境動態的
精確模型來進行計畫,但針對環境的每一方面來建模,則無法滿足視覺豐富的領域,例如
Atari,迄今針對Atari的最佳解決方案為非模型的AI系統,包括DQN、R2D2與Agent57,它
們並非使用學習模型,而是推測下一步的最佳作法。

於是MuZero摒棄了上述兩種方式,採用了截然不同的作法,它只針對系統決策程序的重要
因素來建模。研究人員形容,人類的規畫能力呈現在當看到烏雲時,即推測可能會下雨便
帶了把傘,MuZero的邏輯則在於,了解傘能夠讓人們保持乾燥,比針對空氣中的雨滴進行
建模更有用。

因此,MuZero的模型著重在能夠協助規畫的環境變動因素,包括現在位置的價值、最佳行
動的政策,以及上一個行動的成效,藉由深度神經網路進行學習,以理解當採取特定行動
時所產生的結果,並據此展開規畫。

DeepMind團隊測試了MuZero在圍棋、西洋棋、將棋與Atari遊戲上的效能,發現它替強化
學習演算法設立了全新的水平,不僅於棋戲項目達到與AlphaZero同樣的效能水準,在
Atari遊戲上更凌駕了所有現有的最佳系統

此外,該團隊也發現,要是賦予MuZero更多的思考(演算)時間,例如原本移動圍棋每個
棋子的時間為1/10秒,在將它拉長至50秒之後,MuZero在圍棋上的技能將增加 1000 Elo
,兩者之間的差距就如同一個厲害的業餘玩家,以及一個世界最強的專業棋手。

同樣的,在Atari其中一款遊戲《小精靈小姐》(Ms Pac-Man)上進行測試時,MuZero在
每個行動上可選擇5~50個數量的規畫模擬,結果顯示所選擇的規畫數量愈多,MuZero就能
學習得更快,也能取得更好的效能;有趣的是,若將MuZero的每個行動限制在只能選擇6
或7個規畫模擬,它同樣能夠達到優秀的效能,透露出MuZero可在情況與行動之間進行歸
納,而不一定要搜尋所有的可能性。

研究人員認為,當MuZero具備學習環境模型的能力,並用它來進行規畫時,呈現的是強化
學習與通用演算法上的重大進步,AlphaZero已被用來解決化學或量子物理等問題,而
MuZero將可用來解決機器人、工業系統或其它未知規則的混亂現實環境中,所存在的新挑


--
Tags: 圍棋

All Comments

Victoria avatar
By Victoria
at 2021-04-05T18:04
wow
Jack avatar
By Jack
at 2021-04-07T00:29
終於制霸atari了嗎
Ophelia avatar
By Ophelia
at 2021-04-08T06:54
不知道規則也能下?意思是不是有辦法不考慮貼目或配置
直接判斷一個局部定式好壞?
Olive avatar
By Olive
at 2021-04-09T13:20
不用事先輸入規則而已吧
Catherine avatar
By Catherine
at 2021-04-10T19:45
意思就是他可以自己探索規則
Tom avatar
By Tom
at 2021-04-12T02:10
S大 應該是沒有說明書 一直輸 輸到學會的意思啦
Yuri avatar
By Yuri
at 2021-04-13T08:36
其實應該沒有什麼新東西,只是把規則變成參數的一部分而已

成人想學圍棋

Damian avatar
By Damian
at 2021-04-04T11:26
請問版友~如果初學棋力0 大家比較建議先用小盤練習 但是總覺得不知道自己哪裡下錯或是可以下更好 因此想請問台北或台中有哪裡可以學下圍棋呢? 或是線上指導也可以~ 謝謝大家! - ...

可以線上連線擺譜的網站或程式?

Thomas avatar
By Thomas
at 2021-04-04T01:58
如題,有一個朋友想學圍棋,想說可以稍微教他一些基礎的資訊(氣、叫吃那些),如果他 有興趣更進一步再去外面找教室上課 但因為自己也很久沒下棋了,不知道現在都有哪些管道,想問有沒有兩個人可以同時看到棋 盤,包括覆盤過程的打譜網站或程式,方便語音即時溝通 或是其實我想得太複雜,其實一般對弈軟體就有相同效果了? ...

AI正在稱霸圍棋界 但我們不必過度悲觀

Andy avatar
By Andy
at 2021-04-03T09:18
https://sports.sina.com.cn/go/2021-04-02/doc-ikmyaawa4063192.shtml AI正在稱霸圍棋界 但我們不必過度悲觀 2021年04月02日 11:55 紅網 https://reurl.cc/kV3Nlq   日前,中國知名圍棋棋手柯潔在個人社 ...

落子位置好壞的判斷與AI勝率判斷的結合

Carol avatar
By Carol
at 2021-04-03T04:23
本人野狐 1~2 段的菜雞 發表一下不專業的意見 大家當我嘴砲就好 個人感覺AI的勝率其實跟電腦配置、AI權重這些關聯還是很大 當然是比人類強很多 但遠遠不到圍棋之神 下面是我自己發現的例子 這是LG杯最後決勝局 柯潔 vs 申旻埈 網路上的賽後覆盤都認為101手是柯潔的敗著 ai 推 ...

第76期日本本因坊戰第七輪(最終輪)

Hardy avatar
By Hardy
at 2021-04-02T16:18
http://www.yigo.org/modules/news/ 4月2日於日本進行的第76屆本因坊戰挑戰者決定循環圈賽第七輪(最終輪) 芝野虎丸王座(21) ○-╳ 羽根直樹九段(44),B+R(手) 一力遼 天元(23) - 大西竜平七段(21), +R(手) 黃翊祖 九段(33) ○-╳ ...