黃士傑返台分享AlphaGo Zero開發過程 - 圍棋

By Hamiltion
at 2017-11-09T23:06

Table of Contents

※ 引述《tlchen (台灣加油)》之銘言：
: ※ 引述《qweewqq (風一樣的男子)》之銘言：
: : DeepMind指出，他們不使用任何人類知識，AlphaGo Zero用上的是新的「強化學習」方法
: 對於 "不使用任何人類知識" 這句, 我心中始終有個大問號.
: 首先, 在一開始的 random play, AZ 根本不知何時要停.
: 必須人工設定去停它. 這用到了人類知道這樣的遊戲, 應該有限步要停.
: 雖然 AZ 的參數是經由自我對戰學的, 但整個架構呢?
: 要有幾層的的類神經網路? 每層有多少節點? 層跟層間的結構?
: covolution 要用 5x5 還是怎樣的大小?
: 要怎樣配合 VN, PN? 要用 MCTS 來尋找?
: 這些都沒用到人類的圍棋知識嗎?
: 這整個大架構, 是在學人類棋譜時, 發現這樣的架構, 可以訓練出不錯的 AI.
: 這架構不是隨便設就行得通的吧?
: 經由人類棋譜訓練, 找到一個好的大架構, 這樣可以稱作不使用人類知識?
: 如果今天一個完全不懂圍棋的人, 只針對規則, 就去訂了大模型架構,
: 然後經由自我對戰去學參數. 這樣的結果, 那叫做不使用任何人類圍棋知識.
: 現在這樣算嗎? 我心中實在有很大的黑人問號.

1.
AGZ 怎會不知何時要停? 何必需要什麼特別人工設定它? 跟第一盤或第幾盤也沒關係
給定圍棋規則(禁自盡禁同型)
即使你2個人類對下到最後雙方再無可著手的時候就是終局(你可以找個人試試)
這跟機器或人類無關

1. 原po 一直在搞混人類知識跟人類圍棋知識

所謂人類圍棋知識是專指人類"在棋盤上"的著手應法思考這叫圍棋知識(不包括基本規則)
AGZ "就算有" 建立在之前 AlphaGo的基礎上比如說要用幾層類神經網路 MCTS 或其它
"人類工程上"的知識但這些跟"人類圍棋知識" 並不相同基本上這個是工程問題數學問題主是跟棋盤大小
圍棋規則及圍棋本質等相關的東西而跟人類"棋盤上的著法"無關

基本上你搞混了 build time 跟 run time
AGZ的工程師懂或不懂圍棋也不重要(他要懂基本規則) 他不需要是一張白紙
除非AGZ 的設計者有把什麼不屬於基本規則的想法寫入程式如征子定石手順等等
不然AGZ 本來就沒用到"人類圍棋知識"

就是只給定基本規則所有的著法都可以所有的著法都是自我對戰發現改良的
它訓練過程根本沒看過人類下棋沒跟人對下

總之
人類工程上對圍棋的知識(解法演算法設計等) \= 人類圍棋知識
寫出一個GAME 不代表我在玩這個GAME時是天下無敵
在GAME裡面無敵不表示我能寫出這個GAME
一個是 build time 一個是 run time
這兩個意義也不同不要搞混
如果你今天要把人類只要跟圍棋有關的東西都叫人類圍棋知識了
把所有東西都定義進來這就沒什麼好講的

(至於你一直說AGZ大架構有沒有用到人類的圍棋知識,
如果AGZ 只針對圍棋的基本規則去設計優化那就沒有用到
如果AGZ 有針對盤面特定結構去設計優化那就是有)

--
Sent from my Windows

--

Tags: 圍棋

All Comments

By Eden
at 2017-11-13T17:32

簡單明瞭

By Adele
at 2017-11-17T00:58

還有 alpha go 並不是因為人類棋譜才找出一個好的大
架構而是本來就設計出一個架構才拿人類棋譜來驗證
或先得到一個還不錯的結果

By Sandy
at 2017-11-20T11:45

樓上這個可有根據?我抱懷疑的態度

By Linda
at 2017-11-20T23:39

電腦圍棋的演進,如何設定,不斷在改變

By Olivia
at 2017-11-25T03:45

而改變的原因,很大的因素是看跟人下,怎樣改變可提升勝率

By Hamiltion
at 2017-11-26T08:31

AlphaGo 的架構,完全跟之前的無關?

By Zora
at 2017-11-30T02:46

講個較極端的例子,假設今天有個工程師分別用VGGNet,

By Tristan Cohan
at 2017-12-04T14:33

你應該先看一下 DZG作者那串文

By Gilbert
at 2017-12-09T10:39

GoogLeNet, 及 ResNet 設計了三個AI. 並分別用人類棋譜去

By Audriana
at 2017-12-11T09:09

alphago實際上是用現有的一些技術拼湊實驗出來

By Thomas
at 2017-12-11T12:07

學參數.然後三個AI對打,假設最後ResNet贏了,所以工程師之

By Andy
at 2017-12-14T23:07

過去就算有人想到也沒有足夠資源做出來

By Hazel
at 2017-12-19T04:12

zero就更不用說了成本高的誇張

By Damian
at 2017-12-20T07:43

後就只用ResNet的版本,然後用自我對戰學參數.

By Belly
at 2017-12-22T12:24

這樣的AI,算不算沒有用到人類的圍棋知識?

By Robert
at 2017-12-24T01:27

無言顯然沒看懂這篇

By Lydia
at 2017-12-26T00:35

根據這篇的說法,那似乎是沒有用到人類的知識

By Jack
at 2017-12-26T12:42

alphago一開始就拋棄了人類的「圍棋知識」

By Lily
at 2017-12-31T06:35

在我的認知,它用到了人類的圍棋知識.因為所謂的優化,並不

By Damian
at 2018-01-02T00:18

餵人類棋譜的時候還可以說會受人類決策的影響
麻煩先定義一下什麼叫「圍棋知識」

By Emma
at 2018-01-03T14:57

不只是參數的優化.這位工程師,一開始還做了一個三種模型
間的優化.而這個優化,用到了人類圍棋知識

By Regina
at 2018-01-04T17:31

不用人類棋譜, 純粹自戰可能也會得到 ResNet 最適合的結論

By John
at 2018-01-07T16:04

tlchen，我建議你先定義一下你的人類圍棋知識是哪些
你從來沒定義過你這個用詞指涉的範圍，這樣討論不下去

By Kumar
at 2018-01-10T01:43

類似的情況是我之前文章說的,大架構的優化,沒用到人類的
知識嗎?

By Catherine
at 2018-01-13T12:19

這些根本不是圍棋知識而是寫程式的知識

By Hedda
at 2018-01-13T18:47

人類的知識和人類的圍棋知識差很多耶？你指哪個？

By Joe
at 2018-01-14T04:38

人類的知識, 但不見得是圍棋的

By Michael
at 2018-01-16T20:22

只要規則定義清楚程式設計師根本不需要會下圍棋

By Kumar
at 2018-01-18T14:36

我說的是人類圍棋知識,而棋譜是它的表現

By Kyle
at 2018-01-20T18:26

不過以DM說可以應用在其他領域(伺服器省電),應該是泛用的

By Hedda
at 2018-01-22T00:29

若選大架構是可以從自戰選的,我就認為是沒用到人類圍棋知

By Annie
at 2018-01-23T14:26

識,這是我在先前文章就這樣說的

By Leila
at 2018-01-25T01:58

不用, 反而需要的是神經網路方面的知識

By Blanche
at 2018-01-27T12:41

所以不要鬼打牆啦，你的「人類的圍棋知識」的定義是？

By Skylar DavisLinda
at 2018-01-30T20:45

master之前訓練過程會從人類棋譜取得特徵

By Ethan
at 2018-01-31T08:30

所以可以視為間接接收了人類的圍棋知識
但是演算法本身和圍棋知識並沒有關係

By Rosalind
at 2018-02-03T13:37

我們先來搞定最基礎的定義再繼續往下討論

By Queena
at 2018-02-04T00:58

這些不只是寫程式的知識,每個領域,要用怎樣的架構,是不同

By Hedwig
at 2018-02-06T00:22

棋譜可以從人類來,但大多是自戰 (後來就純粹自戰了

By Jack
at 2018-02-09T17:51

寫程式的人也不需要會下棋

By Zora
at 2018-02-11T04:28

為什麼在圍棋適合用ResNet,這不需要對圍棋的了解?

By Hedy
at 2018-02-16T02:30

這個就是寫程式的知識和規則有關, 和棋力無關

By Tristan Cohan
at 2018-02-19T04:17

實驗一下就知道了為什麼需要額外的知識？

By Daniel
at 2018-02-19T11:39

不需要, 因為 ResNet 和圍棋沒有關係啊

By Adele
at 2018-02-23T12:13

從論文也看的出來過程中試過又丟掉的東西肯定很多
這些和圍棋本身並沒有關係圍棋高手也看不出來哪種好

By George
at 2018-02-25T16:03

實驗一下就知道,但怎麼實驗的?有沒有用到人類的棋譜?或是
跟人下?

By Kumar
at 2018-03-01T16:25

或許真的可以用自我對戰去選大架構,而這樣做出來的,如我文
所說,我認為這樣是不靠人類圍棋知識.但 alphago zero是嗎?

By Harry
at 2018-03-03T05:23

這是我主要的疑問

By Margaret
at 2018-03-07T11:02

要實驗就兩個演算法對下需要什麼棋譜？

By Rae
at 2018-03-11T04:10

我再問一下，你所謂「人類圍棋知識」的定義是？
你一直不定義清楚，是要怎麼討論下去？

By Rae
at 2018-03-14T21:52

結論只有誰贏, 這個不需要有棋力吧?

By Yedda
at 2018-03-15T19:57

他大概覺得被李世石找出問題,AG要用同個架構訓練更久也算吧

By Hardy
at 2018-03-18T00:47

3天的AGZ打不過Master,要40天,但因為Master有人類棋譜所以.

By Kristin
at 2018-03-19T16:24

簡單來說 Alpha go 餵人類棋譜或自我對戰訓練出來
的是參數相當於人類的記憶而alpha go 程式則相當
於大腦本身

By Xanthe
at 2018-03-21T20:03

記憶可以換可以訓練但這並不會去影響大腦本身的結構
不清楚這點也不用再扯了這是run time 的東西

By Cara
at 2018-03-23T00:04

除非在build time的時候工程師把除了圍棋規則以外
的想法寫了進去或加進結構這點本文已有說明

By Linda
at 2018-03-25T04:41

人類圍棋知識,就是除了圍棋本身規則,人類根據這規則而有
的想法或產品

By Kristin
at 2018-03-27T04:09

問題是這個大腦的結構是人為建構的,人為如此建構,是否經
某種優化過程,而過程是否用到人類圍棋知識

By Skylar Davis
at 2018-03-29T06:34

像我舉的例子,要用某模型,決定的過程是否用到了跟人對戰

By Cara
at 2018-04-02T16:14

或其它人類圍棋知識

By Rae
at 2018-04-06T09:46

AlphaGo Zero 沒有，就這樣

By Linda
at 2018-04-06T21:44

當然實驗可以是兩個AI對下,但兩個AI對下,它們用的參數是
怎麼來的

By Dora
at 2018-04-11T13:21

了解tlchen 他現在把AG工程師如果因為用人類棋譜得
到的結果使得工程師去選擇了某個演算法所造成對AGZ
的影響也認為是＂人類的圍棋知識＂的影響

By Jack
at 2018-04-13T05:01

其實alphago從一開始就沒有
zero是連人類知識的間接影響都拋棄不要

By Erin
at 2018-04-18T03:20

AlphaGo Zero 的大架構是跟 AlphaGo Master 類似的
你確定這個架構沒有?

By Emma
at 2018-04-18T16:35

寫程式的又不用會下圍棋

By Donna
at 2018-04-19T14:26

但前面已說過即使有這是人類工程上的圍棋知識而不
是人類棋盤上的圍棋知識

By Hedy
at 2018-04-24T08:07

如果tlchen的理解像james大講的，那也不用討論了

By Skylar DavisLinda
at 2018-04-28T20:16

建立適合圍棋的模型不需要什麼圍棋知識

By Michael
at 2018-05-02T08:49

MCTS這方法不是AlphaGo先用的,它也拿來用,不是根據之前的
經驗?

By Damian
at 2018-05-03T02:50

幾乎都是工程考量想辦法提高演算法的效率

By Yuri
at 2018-05-07T00:11

如果工程師完全只用圍棋規則推導出來的那就肯定沒
有人類棋盤上的知識在裡頭

By Rebecca
at 2018-05-09T11:49

不需要圍棋知識,就可以知道怎樣選擇適合的模型?

By Erin
at 2018-05-11T13:41

說穿了都是剪枝的方法哪種好是比較出來的

By Linda
at 2018-05-15T22:26

初期弱的時候判斷好壞包括比對和人類棋手決策的命中率

By Jacky
at 2018-05-19T18:22

人類工程上的圍棋知識是怎麼來的?難道不是先前的實驗,利用
到人類的圍棋知識

By Ursula
at 2018-05-23T19:02

變強以後這招就不靈了直接對下個100盤最快最直接
什麼叫工程上的圍棋知識?

By Carolina Franco
at 2018-05-27T03:41

我這篇推文的一開始例子看一下,那算不算用到人類圍棋知識?

By Jacky
at 2018-05-30T20:12

比較好壞跟人類棋譜何干？

By Lydia
at 2018-06-04T03:01

AlphaGo前的AI和AlphaGo的架構完全不同啦

By Olive
at 2018-06-07T00:20

是不是機器學習這點是決定性的差別啊

By Edith
at 2018-06-07T06:35

所以前面就說DZG作者專訪先看一下

By James
at 2018-06-10T19:17

b大,回去看一下我的例子,那些AI的參數是用棋譜學的

By Hamiltion
at 2018-06-14T20:10

裡面講以前的做法那些才叫「圍棋知識」
棋譜是拿來訓練用的跟架構也沒有關係

By Steve
at 2018-06-14T21:34

這裡的參數又是指啥？

By Ethan
at 2018-06-15T22:46

s大,MCTS之前的AI有沒有用?AlphaGo也拿來用,這沒用到經驗?

By Harry
at 2018-06-18T15:49

b大,我講的圍棋知識,前面有定義.棋譜是其展現

By Regina
at 2018-06-21T02:17

MCTS跟圍棋知識毫無關係

By Andrew
at 2018-06-24T16:06

你不知道MonteCarlo是指什麼嗎

By Sandy
at 2018-06-29T10:51

參數是類神經網路的那些 weights, master 是用人類棋譜學

By Margaret
at 2018-07-01T15:35

MCTS是一種通用演算法，不止用在圍棋

By Barb Cronin
at 2018-07-02T16:10

而 AZ 的參數是經由自我對戰學的

By Irma
at 2018-07-03T14:05

原始的演算法可是亂下下到完

By Ivy
at 2018-07-04T00:36

要用AI當然就不想用人類知識看不出要把人類的圍棋
知識加入幹嘛圍棋可以光數學純綷推導優化加入人
類知識只是更多例外更難寫以AGZ來說沒有 end 你要
堅持你自己的想法跟世界不同那就繼續吧大家都錯了
deep mind 也説謊你是對的

By Lydia
at 2018-07-05T07:45

MCTS當然不止用在圍棋,但之前在圍棋上有成功的經驗,而

By Hedwig
at 2018-07-06T13:23

zero證明了master之前也只是抄近路

By Xanthe
at 2018-07-11T08:06

AlphaGo 也用了, 沒用到前人經驗?

By Jacob
at 2018-07-13T06:19

從亂下開始慢慢訓練起結果還可以更強

By Kama
at 2018-07-13T16:41

那跟圍棋知識根本無關

By Catherine
at 2018-07-16T17:39

是前人的經驗沒錯啊，但是這不是在人類圍棋的知識內吧

By Skylar Davis
at 2018-07-20T15:45

你到底有沒有搞清楚自己在問啥？
演算法的知識 != 人類圍棋的知識

By Mary
at 2018-07-21T15:52

人類工程上的圍棋知識怎麼來的？當然是思考跟推導來
的這不需要會下圍棋只要會思考數學跟基本規則

By Emma
at 2018-07-24T16:34

他定義的"人類圍棋知識"其實是"人類開發電腦圍棋累積知識"
我這樣解讀對不對?

By Michael
at 2018-07-28T15:21

樓上這定義也太小看deepmind了
它用的技術雖然之前多半都存在

By Brianna
at 2018-07-29T16:17

要把它們湊在一起並不是件容易的事

By Regina
at 2018-08-01T16:08

啊? 我只是試圖解讀tl的定義啊

By Olive
at 2018-08-04T09:57

tl沒有意識到一件事就是MCTS和圍棋知識是背道而馳

By Necoo
at 2018-08-05T10:54

就連隨機亂下到完都能得到一定的棋力

By Steve
at 2018-08-07T22:39

T大什麼神邏輯？照這樣講世界上沒人能稱作無師自通了
。因為學習過程就算沒問過其他人，沒參考過書籍，但因
為其他人類已證明人腦是學得會且有效的，所以只要有人
成功做過的事，那就算有用到前人經驗？？

By Jacky
at 2018-08-12T16:01

tlchen有沒有看過zero自戰的第一盤?很精彩,建議看看

By Valerie
at 2018-08-16T01:22

一開始沒有做活跟吃子的觀念,亂下碰觸到規則才發生吃子

By Adele
at 2018-08-20T14:36

還會自己把空填滿自殺

By Ursula
at 2018-08-21T17:03

而黑子181枚,白子180枚,共361枚,下完就沒得下了,最後由
規則來定出勝負。Zero就是從這種模式訓練過來的!

By Annie
at 2018-08-22T10:39

看了一下,不止..40block下到共541步,20block下到共469步

By Todd Johnson
at 2018-08-25T08:39

我是覺得可以放棄解釋了，基本上他就是用他的自定義在做討

By Ophelia
at 2018-08-30T00:15

論，或者說根本不是要討論而只是想講他的定義

By Bennie
at 2018-09-03T07:51

@wadashi1 沒有子下完這種事。規則上萬一真的雙方子用完，
可以用交換死子的方式重新取得可下的子。

By Charlotte
at 2018-09-04T19:42

應該說初始的價值網絡都是一片空白的，完全只依靠人
類給的算式求最佳解

By Kama
at 2018-09-08T18:26

@chris610020 你解釋這個已經沒有用了，因為那就是認為那
個一片空白的網路也算是靠「他認為的圍棋知識」選出來的

By Noah
at 2018-09-13T07:39

他就是

By Sarah
at 2018-09-15T22:35

他講的偏向演算法優化，盡量不要做無意義的事

By Olivia
at 2018-09-16T12:55

不優化只是跑的比較慢，解果還是一樣的

By Carolina Franco
at 2018-09-20T13:35

結果

By Mason
at 2018-09-23T17:56

這倒未必，選取的架構不同也許會落到不同的Local Max裡面

By Mason
at 2018-09-25T18:30

而落到Local Max裡面並沒有什麼理論保證一定出得來

By Mia
at 2018-09-28T13:23

感覺起來tlchen認為..因為圍棋規則來修正Zero就算是用到

By Audriana
at 2018-09-30T14:42

人類圍棋知識,但..不給Zero規則,它怎麼知道怎麼玩?什麼

By Skylar Davis
at 2018-10-04T08:32

不能下?怎麼決定勝負? 人類的定石,征子,棋譜,所有人類的
技巧,Zero完全沒有,有的只是定義的圍棋規則對它的修正。

By Valerie
at 2018-10-06T12:27

tlchen沒說的那麼淺，但是他認為繼承上一版本的原始架構

By Mason
at 2018-10-07T18:20

參數都是圍棋知識，這和大多數的定義不同，問題是他的定

By Quanna
at 2018-10-09T18:30

義目前沒引出什麼有建設性的討論。

By Frederic
at 2018-10-12T18:07

這篇不是很明確說出人類棋譜等於人類圍棋知識了嗎？

By Rae
at 2018-10-16T06:43

規則比較像邊界條件，不屬於知識吧

By Damian
at 2018-10-18T14:58

如果只是棋譜本身不是知識，是資訊。要將資訊歸納整理後

By James
at 2018-10-19T16:09

才能稱為知識，比如說你如果不懂化學拿到元素週期表

By Hazel
at 2018-10-23T23:59

就算能夠全部背起來也不能說懂得週期表裡面的化學知識

By Ethan
at 2018-10-28T18:07

拿電腦圍棋來說，AG出世前的第一波專家系統AI通常都有真對

By Kumar
at 2018-11-01T05:40

判斷局部攻殺部分輸入人類的定石Data，與AG的最大差別並非

By William
at 2018-11-05T23:44

輸入不同的data，而是使用了人類圍棋知識中"局部"的觀念

By Oscar
at 2018-11-07T14:22

來做死活判斷，而局部這個觀念是人類自行總結的規則裡沒有

By Olive
at 2018-11-11T05:53

tlchen一開始就對參數這東西理解錯了 weight怎麼給的也

By Susan
at 2018-11-15T03:32

是靠機器學習自己修正的須要人給weight還能算機器學習?

By Carol
at 2018-11-18T00:11

辛苦，那廝基本上就是自尊心太強的X孩

By Olive
at 2018-11-18T02:43

別再浪費時間回啦

黃士傑返台分享AlphaGo Zero開發過程 - 圍棋

All Comments

Related Posts

CGI死活強度

黃士傑返台分享AlphaGo Zero開發過程

有適合小朋友初學棋的影片嗎？

某安是不是自我感覺太過良好?

[棋訊] 第22屆三星杯世界圍棋公開賽4強