黃士傑返台分享AlphaGo Zero開發過程 - 圍棋
By Suhail Hany
at 2017-11-11T03:13
at 2017-11-11T03:13
Table of Contents
※ 引述《capita (小明)》之銘言:
: 改用 ResNet 因為是最當紅的神經網路模型,大家都說好,到處拿第一,
: 只要是做機器學習,不改來用看看才奇怪,這跟圍棋一點關係也沒有。
: 或是三維的圍棋,都可以照樣修改後讓電腦去自行修煉成大師。
: 在一些細部結構上,DeepMind 也試過不同的參數,其中比較好的結果,
: 才變成現在的版本,這種工程調整,跟人類的圍棋知識也沒有關係。
: 所以這不是圍棋專用的算法,如果這樣還要說是用到了人類圍棋知識,
: 那就隨便他了。
很抱歉, 又來礙眼了. 如果認為我是來亂的, 那請退出, 不要浪費您的時間.
很多分散在推文可能講不清楚, 容我用最後一篇寫跟這主題相關的.
但如果板主認為這樣的文章不適合出現在這板, 請刪掉或來信叫我自刪.
首先很簡單的澄清, 我已經有兩個兒子了, 大概很難被定義成屁孩.
兒子大到覺得老爸陪他去學棋是丟臉的事.
原本跟他說, 我載你去, 之後又要來接你. 不如停個車,
我也付錢一起學一下, 卻被斷然拒絕.
去年人機大戰開始關心圍棋, 當時第一次聽到李世石這個名字, 就知道我有多菜.
人機大戰時是希望機可以贏, 應該不會有什麼人類尊嚴的心結.
以往陪著兒子去比賽, 在場邊無所事事一天, 今年夏天索幸自己也報名.
某次僥倖升段, 但絕對是全台最水的段位棋士, 問題只在能不能偷加個 "之一"
跟板友們程度差太多, 但還是略懂一點點, 不是什麼都不知道.
數學統計出身, 也做一點 learning.
因為數學的訓練, 讓我對很多事很小心, 很在意. (雖然在這板是被認為沒邏輯)
一個訊息有沒有被用到, 有沒有乍看沒用到, 但實際有用到, 這是我在意的.
如板主建議, 應該要先把定義講清楚, 再做討論.
(這其實我很喜歡, 完全符合數學模式. 向來是被抱怨太死板, 講那什麼定義.)
什麼是 "人類圍棋知識" ? 其實論文題用的是更強的 human knowledge,
但我相信它只是把後面的 in GO 略掉, 應該是那意思.
有網友提到, 在 AI 界的定義, 棋譜不算人類圍棋知識.
但從 deepmind 自己也是 AlphaGo Zero 才稱沒用到人類知識,
他們應該也是把棋譜當做是人類圍棋知識.
對我來說, 除了規則外, 人類了解規則後, 對這規則所演生的想法, 成品, 表現,
都歸類為人類圍棋知識.
棋譜沒有直接告訴你棋理, 但它是棋理的展現.
從棋譜可以看到人類怎麼下, 可以歸納人類怎麼想.
用了棋譜的資訊, 說是沒用到人類圍棋知識, 或許對 AI 界的術語是那樣,
但我相信對於大部份白話的用語, 不是這樣的.
我若打了一堆本因坊秀策的棋譜, 我能說我沒用到本因坊秀策的知識?
以下討論, 就局限在我個人的定義, 不認同的, 也沒有必要繼續看下去.
如 AlphaGo Zero, 一個方法, 程式, AI 等, 它通常有一個架構, 模型, 或是流程.
而再細看, 其間有很多要被微調的參數, 才能讓這方法有優異的表現.
現在有幾個讓人關心的問題, 參數的估計有沒有用到人類圍棋知識? 模型架構的
選取有沒有用到人類圍棋知識?
一個沒有爭議的是, AlphaGo Zero 在參數優化估計上, 它沒有用到人類圍棋知識.
因此, 如果說法是, 在 AlphaGo Zero 的架構被決定後, 接下來它不需要人類圍棋
知識就可以變如此強, 這就也完全沒有爭議.
但它下的標題是: Mastering the game of Go without human knowledge
我不知道大家怎麼解讀這個句子.
我個人是認為 (可能您就不這樣認為) 不懂 AI 不懂圍棋的大眾, 會以為有個 AI,
在只知道規則下, 不需要藉助任何人類圍棋知識, 就能精通圍棋.
若是上述的陳論, 那我就無法同意了. 優化的過程, 除了參數的優化, 模型的選擇
也是重要的步驟. 參數的優化沒用到人類圍棋知識, 沒有爭議. 但模型選擇呢?
有人說, 那只是工程上的問題. 這我是完全無法認同的. 模型的選取, 直接影響整
個方法的表現, 通常不只是快或慢而已. 解很可能不一樣的.
至於我這篇一開始引的. 是的, ResNet 當紅, 拿來試試是自然的. 問題是怎麼試?
不用試了, 就是它, 直接開始自戰, 是嗎? 我想有經驗的人不會這樣做. Deepmind
也沒這樣做, 它還是先測試了學人類棋譜的 master 板本, 才再去試自戰的.
引個 https://tinyurl.com/y85ukxhn 文末的話:
"The clever insights making Zero better was due to humans, not any
piece of software suggesting that this approach would be good.
I would start to get worried when that happens."
我想說的是, 在這新聞報導出來, 很多人會被誤導 AI 可以僅憑規則, 無師自通.
但它其實沒有被證實 (下一段補充) 那麼厲害. 它仍然是需要人類圍棋知識幫它
打好架構, 引導它往哪方向走. 對我來說, AlphaGo Zero 自戰學習, 這所謂的
學習, 其實只是更廣義的計算. 電腦計算比人類強, 這大家已經沒疑問. 而現在
的學習, 其實只是 "隨機計算", 這個電腦更該比人強. 但電腦程式的角色其實廣
義上仍然是幫人類算人類無法自己算的地方, 它並沒有自己學習.
(關於上一段說要補充的. 或許 AI 真有這個能力, 但是, deepmind 似乎不是走
這樣的流程)
另外本文一開始引的也提到, 這不是圍棋專用的, 所以不算是圍棋知識. 我同事
目前在做, 當有 incomplete or delayed 訊息的遊戲, ResNet 是否也能做得好?
另外像是加入隨機, AI 無法得知最後成敗是因運氣還是功力, 那是否會讓它不易
學習? 或許有人可以歸納出圍棋是屬於怎樣的遊戲, 而這樣的遊戲, 用 ResNet +
MCTS 都可以做得好. 但這是根據規則, 了解這個遊戲的特性, 這難道不也是一種
人類的圍棋知識? 是 AI 自己能懂的嗎?
有人把這篇看完了嗎? 我非常佩服你. 我覺得我若是讀的人, 可能也看不完.
我想我的想法都陳述了, 這是最後一篇, 相關話題不會再發文污染這個板.
若有興趣繼續討論的人, 歡迎私信討論.
--
: 改用 ResNet 因為是最當紅的神經網路模型,大家都說好,到處拿第一,
: 只要是做機器學習,不改來用看看才奇怪,這跟圍棋一點關係也沒有。
: 或是三維的圍棋,都可以照樣修改後讓電腦去自行修煉成大師。
: 在一些細部結構上,DeepMind 也試過不同的參數,其中比較好的結果,
: 才變成現在的版本,這種工程調整,跟人類的圍棋知識也沒有關係。
: 所以這不是圍棋專用的算法,如果這樣還要說是用到了人類圍棋知識,
: 那就隨便他了。
很抱歉, 又來礙眼了. 如果認為我是來亂的, 那請退出, 不要浪費您的時間.
很多分散在推文可能講不清楚, 容我用最後一篇寫跟這主題相關的.
但如果板主認為這樣的文章不適合出現在這板, 請刪掉或來信叫我自刪.
首先很簡單的澄清, 我已經有兩個兒子了, 大概很難被定義成屁孩.
兒子大到覺得老爸陪他去學棋是丟臉的事.
原本跟他說, 我載你去, 之後又要來接你. 不如停個車,
我也付錢一起學一下, 卻被斷然拒絕.
去年人機大戰開始關心圍棋, 當時第一次聽到李世石這個名字, 就知道我有多菜.
人機大戰時是希望機可以贏, 應該不會有什麼人類尊嚴的心結.
以往陪著兒子去比賽, 在場邊無所事事一天, 今年夏天索幸自己也報名.
某次僥倖升段, 但絕對是全台最水的段位棋士, 問題只在能不能偷加個 "之一"
跟板友們程度差太多, 但還是略懂一點點, 不是什麼都不知道.
數學統計出身, 也做一點 learning.
因為數學的訓練, 讓我對很多事很小心, 很在意. (雖然在這板是被認為沒邏輯)
一個訊息有沒有被用到, 有沒有乍看沒用到, 但實際有用到, 這是我在意的.
如板主建議, 應該要先把定義講清楚, 再做討論.
(這其實我很喜歡, 完全符合數學模式. 向來是被抱怨太死板, 講那什麼定義.)
什麼是 "人類圍棋知識" ? 其實論文題用的是更強的 human knowledge,
但我相信它只是把後面的 in GO 略掉, 應該是那意思.
有網友提到, 在 AI 界的定義, 棋譜不算人類圍棋知識.
但從 deepmind 自己也是 AlphaGo Zero 才稱沒用到人類知識,
他們應該也是把棋譜當做是人類圍棋知識.
對我來說, 除了規則外, 人類了解規則後, 對這規則所演生的想法, 成品, 表現,
都歸類為人類圍棋知識.
棋譜沒有直接告訴你棋理, 但它是棋理的展現.
從棋譜可以看到人類怎麼下, 可以歸納人類怎麼想.
用了棋譜的資訊, 說是沒用到人類圍棋知識, 或許對 AI 界的術語是那樣,
但我相信對於大部份白話的用語, 不是這樣的.
我若打了一堆本因坊秀策的棋譜, 我能說我沒用到本因坊秀策的知識?
以下討論, 就局限在我個人的定義, 不認同的, 也沒有必要繼續看下去.
如 AlphaGo Zero, 一個方法, 程式, AI 等, 它通常有一個架構, 模型, 或是流程.
而再細看, 其間有很多要被微調的參數, 才能讓這方法有優異的表現.
現在有幾個讓人關心的問題, 參數的估計有沒有用到人類圍棋知識? 模型架構的
選取有沒有用到人類圍棋知識?
一個沒有爭議的是, AlphaGo Zero 在參數優化估計上, 它沒有用到人類圍棋知識.
因此, 如果說法是, 在 AlphaGo Zero 的架構被決定後, 接下來它不需要人類圍棋
知識就可以變如此強, 這就也完全沒有爭議.
但它下的標題是: Mastering the game of Go without human knowledge
我不知道大家怎麼解讀這個句子.
我個人是認為 (可能您就不這樣認為) 不懂 AI 不懂圍棋的大眾, 會以為有個 AI,
在只知道規則下, 不需要藉助任何人類圍棋知識, 就能精通圍棋.
若是上述的陳論, 那我就無法同意了. 優化的過程, 除了參數的優化, 模型的選擇
也是重要的步驟. 參數的優化沒用到人類圍棋知識, 沒有爭議. 但模型選擇呢?
有人說, 那只是工程上的問題. 這我是完全無法認同的. 模型的選取, 直接影響整
個方法的表現, 通常不只是快或慢而已. 解很可能不一樣的.
至於我這篇一開始引的. 是的, ResNet 當紅, 拿來試試是自然的. 問題是怎麼試?
不用試了, 就是它, 直接開始自戰, 是嗎? 我想有經驗的人不會這樣做. Deepmind
也沒這樣做, 它還是先測試了學人類棋譜的 master 板本, 才再去試自戰的.
引個 https://tinyurl.com/y85ukxhn 文末的話:
"The clever insights making Zero better was due to humans, not any
piece of software suggesting that this approach would be good.
I would start to get worried when that happens."
我想說的是, 在這新聞報導出來, 很多人會被誤導 AI 可以僅憑規則, 無師自通.
但它其實沒有被證實 (下一段補充) 那麼厲害. 它仍然是需要人類圍棋知識幫它
打好架構, 引導它往哪方向走. 對我來說, AlphaGo Zero 自戰學習, 這所謂的
學習, 其實只是更廣義的計算. 電腦計算比人類強, 這大家已經沒疑問. 而現在
的學習, 其實只是 "隨機計算", 這個電腦更該比人強. 但電腦程式的角色其實廣
義上仍然是幫人類算人類無法自己算的地方, 它並沒有自己學習.
(關於上一段說要補充的. 或許 AI 真有這個能力, 但是, deepmind 似乎不是走
這樣的流程)
另外本文一開始引的也提到, 這不是圍棋專用的, 所以不算是圍棋知識. 我同事
目前在做, 當有 incomplete or delayed 訊息的遊戲, ResNet 是否也能做得好?
另外像是加入隨機, AI 無法得知最後成敗是因運氣還是功力, 那是否會讓它不易
學習? 或許有人可以歸納出圍棋是屬於怎樣的遊戲, 而這樣的遊戲, 用 ResNet +
MCTS 都可以做得好. 但這是根據規則, 了解這個遊戲的特性, 這難道不也是一種
人類的圍棋知識? 是 AI 自己能懂的嗎?
有人把這篇看完了嗎? 我非常佩服你. 我覺得我若是讀的人, 可能也看不完.
我想我的想法都陳述了, 這是最後一篇, 相關話題不會再發文污染這個板.
若有興趣繼續討論的人, 歡迎私信討論.
--
Tags:
圍棋
All Comments
By Joe
at 2017-11-15T22:21
at 2017-11-15T22:21
By Necoo
at 2017-11-18T06:33
at 2017-11-18T06:33
By Annie
at 2017-11-20T08:26
at 2017-11-20T08:26
By Tom
at 2017-11-22T23:30
at 2017-11-22T23:30
By Brianna
at 2017-11-25T02:51
at 2017-11-25T02:51
By Brianna
at 2017-11-25T23:02
at 2017-11-25T23:02
By Catherine
at 2017-11-26T19:53
at 2017-11-26T19:53
By Olga
at 2017-11-29T06:31
at 2017-11-29T06:31
By Lauren
at 2017-11-30T22:12
at 2017-11-30T22:12
By Hedda
at 2017-12-01T15:28
at 2017-12-01T15:28
By Daph Bay
at 2017-12-05T09:41
at 2017-12-05T09:41
By Ina
at 2017-12-07T08:42
at 2017-12-07T08:42
By Connor
at 2017-12-08T03:09
at 2017-12-08T03:09
By Agatha
at 2017-12-11T00:25
at 2017-12-11T00:25
By Sarah
at 2017-12-15T06:40
at 2017-12-15T06:40
By Elizabeth
at 2017-12-17T19:35
at 2017-12-17T19:35
By Jacky
at 2017-12-22T18:20
at 2017-12-22T18:20
By Kristin
at 2017-12-25T06:38
at 2017-12-25T06:38
By Cara
at 2017-12-26T07:15
at 2017-12-26T07:15
By Christine
at 2017-12-26T08:21
at 2017-12-26T08:21
By Emily
at 2017-12-26T15:53
at 2017-12-26T15:53
By Agatha
at 2017-12-30T05:52
at 2017-12-30T05:52
By Zora
at 2018-01-01T21:15
at 2018-01-01T21:15
By Christine
at 2018-01-04T14:04
at 2018-01-04T14:04
By Hedy
at 2018-01-07T22:19
at 2018-01-07T22:19
By James
at 2018-01-12T16:35
at 2018-01-12T16:35
By Harry
at 2018-01-16T05:16
at 2018-01-16T05:16
By Zanna
at 2018-01-18T06:55
at 2018-01-18T06:55
By Quintina
at 2018-01-20T15:01
at 2018-01-20T15:01
By Michael
at 2018-01-22T04:25
at 2018-01-22T04:25
By Jack
at 2018-01-26T14:29
at 2018-01-26T14:29
By Audriana
at 2018-01-28T03:35
at 2018-01-28T03:35
By Xanthe
at 2018-01-31T02:43
at 2018-01-31T02:43
By Ethan
at 2018-02-02T11:40
at 2018-02-02T11:40
By Ivy
at 2018-02-04T23:47
at 2018-02-04T23:47
By Harry
at 2018-02-09T09:04
at 2018-02-09T09:04
By Tracy
at 2018-02-11T00:20
at 2018-02-11T00:20
By Jessica
at 2018-02-12T15:02
at 2018-02-12T15:02
By Quanna
at 2018-02-15T10:40
at 2018-02-15T10:40
By Lydia
at 2018-02-16T06:59
at 2018-02-16T06:59
By Linda
at 2018-02-20T03:25
at 2018-02-20T03:25
By Todd Johnson
at 2018-02-20T17:34
at 2018-02-20T17:34
Related Posts
Leela 0.11.0 & Leela Zero
By Liam
at 2017-11-10T14:28
at 2017-11-10T14:28
如果有機會問黃士傑博士問題
By Frederica
at 2017-11-10T09:19
at 2017-11-10T09:19
黃士傑返台分享AlphaGo Zero開發過程
By Edith
at 2017-11-10T01:32
at 2017-11-10T01:32
黃士傑返台分享AlphaGo Zero開發過程
By Hamiltion
at 2017-11-09T23:06
at 2017-11-09T23:06
黃士傑返台分享AlphaGo Zero開發過程
By Belly
at 2017-11-09T14:31
at 2017-11-09T14:31