黃士傑返台分享AlphaGo Zero開發過程 - 圍棋

Belly avatar
By Belly
at 2017-11-09T14:31

Table of Contents

※ 引述《tlchen (台灣加油)》之銘言:
: ※ 引述《qweewqq (風一樣的男子)》之銘言:
: : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法
: 對於 "不使用任何人類知識" 這句, 我心中始終有個大問號.
: 首先, 在一開始的 random play, AZ 根本不知何時要停.
: 必須人工設定去停它. 這用到了人類知道這樣的遊戲, 應該有限步要停.
: 雖然 AZ 的參數是經由自我對戰學的, 但整個架構呢?
: 要有幾層的的類神經網路? 每層有多少節點? 層跟層間的結構?
: covolution 要用 5x5 還是怎樣的大小?
: 要怎樣配合 VN, PN? 要用 MCTS 來尋找?
: 這些都沒用到人類的圍棋知識嗎?
: 這整個大架構, 是在學人類棋譜時, 發現這樣的架構, 可以訓練出不錯的 AI.
: 這架構不是隨便設就行得通的吧?
: 經由人類棋譜訓練, 找到一個好的大架構, 這樣可以稱作不使用人類知識?
: 如果今天一個完全不懂圍棋的人, 只針對規則, 就去訂了大模型架構,
: 然後經由自我對戰去學參數. 這樣的結果, 那叫做不使用任何人類圍棋知識.
: 現在這樣算嗎? 我心中實在有很大的黑人問號.

Deepmind發言裡所指涉的"知識",在AI的發展的脈絡中有特殊意義
並非廣義上我們理解的知識

===
https://technews.tw/2017/08/07/the-3rd-revolution-wave-of-ai-technology/

第一波人工智慧大約是在 1990 年代前電腦的計算與儲存能力還有限的時候,人工智慧多
是以「專家系統」的方式實現。也就是人類將一些專家才懂的知識(如醫學、法律)變成
一條條「規則」(如吃多喝多尿多可能是糖尿病)並輸入電腦,電腦就可以藉由這些規則
判斷。

第二波人工智慧主要是以機器學習運用在巨量資料探勘為本,以大量的資料配合統計及計
算科學的方法讓電腦能從事決策。
===

所謂專家才懂的知識,在圍棋中就是棋理,比如說氣、手順、遇劫先提、手割分析法..等
AlphaGO一開始輸入的是人類棋譜選點Data,並沒有根據棋理來寫規則並輸入進程式中
你若要找參考人類棋理的AI當然也有,根據我之前轉錄的加藤先生訪談,Zen這類老牌
圍棋軟體還保留了一些AlphaGO出現前專家系統的架構,但很顯然與這一波電腦圍棋進展
無關。

--
Tags: 圍棋

All Comments

Aaliyah avatar
By Aaliyah
at 2017-11-12T15:52
照這樣講,輸入棋譜也算是沒用到人類知識
但這邊是因為它在模型參數的訓練沒用到人類棋譜,才說沒用
Rebecca avatar
By Rebecca
at 2017-11-13T09:32
人類知識.而我要說的是,模型的大架構,還是偷偷用到了
Susan avatar
By Susan
at 2017-11-17T10:29
圍棋知識 謝謝
Una avatar
By Una
at 2017-11-19T06:50
你現在的圍棋知識,棋譜到底算不算?不算的話,先前版本也沒
用到圍棋知識
Erin avatar
By Erin
at 2017-11-21T17:25
棋譜已經含有每盤的手順和勝敗, 如何不算?
Queena avatar
By Queena
at 2017-11-25T06:15
棋譜算是人類知識啊
Emily avatar
By Emily
at 2017-11-27T10:50
不然打前人的譜學習在學什麼?
Christine avatar
By Christine
at 2017-11-28T04:18
算的話,先前alphago的架構,alphago zero 是延用的.只是參
Emily avatar
By Emily
at 2017-11-29T12:53
並沒有沿用
Daniel avatar
By Daniel
at 2017-11-30T10:00
數的估計,之前是根據人類棋譜,現在是根據自戰
Frederica avatar
By Frederica
at 2017-12-03T16:29
tl你所謂的"架構" 頂多是儲存的方式, 而非儲存的資料
Queena avatar
By Queena
at 2017-12-06T02:25
不算是上面說的,不是我說的
Michael avatar
By Michael
at 2017-12-06T13:01
我說的架構是深度類神經網路的架構
這架構不是隨便設,然後就可以成功的
通常是對於不同的領域,然後不斷去試,試出一個好的架構
Frederic avatar
By Frederic
at 2017-12-10T18:08
至於這個儲存方式, zero也因此把兩個神經網路合併
Hedwig avatar
By Hedwig
at 2017-12-11T21:30
今天 alphago 試出一個好的架構,好的學習方法.這可是有用
Joseph avatar
By Joseph
at 2017-12-14T19:35
到人類棋譜
我之前說的,若是連整個架構的選取都是由自戰來評估,那我就
Joe avatar
By Joe
at 2017-12-18T23:21
至於這個深度類神經的網路是否與圍棋相關 這只有DM的人知道
Dorothy avatar
By Dorothy
at 2017-12-21T03:02
認為是沒有用到人類的圍棋知識
Carol avatar
By Carol
at 2017-12-23T12:42
好吧,如果你把定義弄得如此廣義的話也不能說徹底沒用到人
Victoria avatar
By Victoria
at 2017-12-28T01:00
類圍棋知識,但一般常用定義下並不會把學習架構也定義進去
Barb Cronin avatar
By Barb Cronin
at 2018-01-01T18:48
,自我決定架構這種事情Cost太高了,不太可能在這個等級的
問題上實現(這等於是在圍棋學習問題上面又架了一層架構學
Doris avatar
By Doris
at 2018-01-05T15:03
習問題,最糟的是這個層次其實可以無限上綱)
Quanna avatar
By Quanna
at 2018-01-05T21:02
事實上程式的架構仍然不算運用人類圍棋知識
不然就不用試那麼多次才從裡面選擇效率比較好的架構
Robert avatar
By Robert
at 2018-01-09T19:08
一般我們還是接受先拿部分人類知識來試一下可能比較好用的
Suhail Hany avatar
By Suhail Hany
at 2018-01-10T06:58
學習架構,之後清空人類知識保留架構開始自我學習,這樣還
是可以算後面這次的學習沒有用到人類知識作為訓練
Lydia avatar
By Lydia
at 2018-01-10T20:31
要用非常非常非常廣的廣義才會把架構也當成人類圍棋知識建
立出來的東西
Suhail Hany avatar
By Suhail Hany
at 2018-01-12T20:58
因為其實這些架構標準來說是人類知識,可是不算是人類圍棋
知識所建立的,我們是從已知類型的架構中選取一個結果好的
Ophelia avatar
By Ophelia
at 2018-01-15T06:15
他的意思, 如果是因為棋譜導致使用A架構而非B架構, 就算有
Selena avatar
By Selena
at 2018-01-15T19:04
開發過程決定用架構或參數也不是看棋譜 是看對戰狀況吧
在沒有真的試過以前, 有誰知道怎麼做比較好?
Suhail Hany avatar
By Suhail Hany
at 2018-01-17T13:26
,而不是從圍棋知識建立出一個專下圍棋的架構
@Uizmp 對,他就是那個意思,而其實那就是超級廣義XD
Linda avatar
By Linda
at 2018-01-18T07:43
但可能不管是從人類棋譜或AG的自戰棋譜 結論可能都一樣
Skylar Davis avatar
By Skylar Davis
at 2018-01-22T17:08
這裡面圍棋知識其實幾乎沒有, 應該說是寫程式的知識
Lucy avatar
By Lucy
at 2018-01-22T18:38
但或許是因為拋棄人類棋譜,才兩個網路合一,這就不得而知了
Elma avatar
By Elma
at 2018-01-27T00:48
兩個網路合一是方便自我訓練~ 其實本來就有人在猜會合一
Lauren avatar
By Lauren
at 2018-01-28T06:34
開發過程決定架構你說是看對戰,不是看棋譜.請問是看誰的對
戰?
Zanna avatar
By Zanna
at 2018-01-28T08:04
訓練都是用從自己亂下開始的自戰棋譜
架構要說圍棋知識不如說是寫程式的知識更合適
George avatar
By George
at 2018-01-28T22:35
若像你之前說的, 阿貓阿狗的對戰,不是人類的,那就沒用到
Joseph avatar
By Joseph
at 2018-01-30T18:07
看人類對戰,或是跟人對戰,那就用到人類圍棋知識
Elma avatar
By Elma
at 2018-02-02T01:09
因為 DM 是在完全未知的領域 怎麼做比較強 -- 試了才知
Brianna avatar
By Brianna
at 2018-02-05T04:17
就說不只是寫程式的知識.每個領域的應用,要用怎樣的架構合
適,要實際去試才知道.而先前 alphago 版本決定用的架構,並
不是根據對戰的
Elma avatar
By Elma
at 2018-02-06T05:30
還是要試過才能決定 那跟圍棋知識有什麼關係?
Ursula avatar
By Ursula
at 2018-02-11T04:16
因為試它好不好,餵的資料,裡面有人類的圍棋知識在
Aaliyah avatar
By Aaliyah
at 2018-02-13T23:42
我說了 那個可能用人類棋譜或自戰結論相同 那要怎麼算
Yuri avatar
By Yuri
at 2018-02-18T09:33
試它好不好 直接兩個程式對下不就得了
Sarah avatar
By Sarah
at 2018-02-20T23:00
以你的說法,前一版 master,用人類棋譜學,也是沒用到人類圍
棋知識
Ula avatar
By Ula
at 2018-02-21T20:14
訓練過程隱含著從棋譜提取特徵的意思
Hardy avatar
By Hardy
at 2018-02-22T12:05
廣義來說用人類棋譜可以解釋成接收人類的觀念
所以從亂下開始完全自己產生棋譜自己學的意義重大
Xanthe avatar
By Xanthe
at 2018-02-26T21:27
的確是這樣沒錯 應該是這樣説 master程式的確也沒用
到人類圍棋知識 但是master在run 以人類棋譜輸入訓練
出來的成品 就受到人類知識的影響
William avatar
By William
at 2018-03-01T04:26
之前版本的alpha go 本來就沒一定要用人類棋譜 它也
可靠自我對戰訓練 只是初期版本演算法不夠好 收斂地
不夠快 如果完全從0開始 訓練時間會很久

CGI死活強度

Joe avatar
By Joe
at 2017-11-08T21:33
https://i.imgur.com/q5IapNa.jpg 短短讀秒間下出白198妙手做活,隨後黑立即投子 相信連韓國職業六段卞相壹也沒發現可以做活 不然不會棄中間圍殺上方 CGI死活程度AI來講可說是相當強大 - ...

黃士傑返台分享AlphaGo Zero開發過程

Christine avatar
By Christine
at 2017-11-08T20:23
※ 引述《qweewqq (風一樣的男子)》之銘言: : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. 首先, 在一開始的 random play, AZ 根 ...

有適合小朋友初學棋的影片嗎?

Wallis avatar
By Wallis
at 2017-11-08T15:50
如題,目前在水管上只有找到一個 https://www.youtube.com/watch?v=fizBDO90S6Uandamp;list=PLku534PwIYW2cM0jT54HMPb5pyXR-uEo2 這是大陸美女(?)棋士吳文婷5段的教學影片(說真的實在是看不出來她有5段耶) 不過感覺這個品質有點 ...

某安是不是自我感覺太過良好?

Enid avatar
By Enid
at 2017-11-07T18:41
http://0rz.tw/m0ujF 真的有這麼好 講不得啊 呵呵 - ...

[棋訊] 第22屆三星杯世界圍棋公開賽4強

Enid avatar
By Enid
at 2017-11-07T10:48
10:00開賽 中午不休息 每方2小時,5次1分鐘讀秒 地點:韓國大田 11/6 Day1 [韓]安國炫 白中押勝 [中]唐韋星 [中]辜梓豪 黑中盤勝 [中]童夢成 11/7 Day2 [韓]安國炫 黑中押敗 [中]唐韋星 [中]辜梓豪 白中押敗 [中]童夢成 11/8 Day3 ...