黃士傑返台分享AlphaGo Zero開發過程 - 圍棋

Suhail Hany avatar
By Suhail Hany
at 2017-11-11T03:13

Table of Contents

※ 引述《capita (小明)》之銘言:
: 改用 ResNet 因為是最當紅的神經網路模型,大家都說好,到處拿第一,
: 只要是做機器學習,不改來用看看才奇怪,這跟圍棋一點關係也沒有。

: 或是三維的圍棋,都可以照樣修改後讓電腦去自行修煉成大師。
: 在一些細部結構上,DeepMind 也試過不同的參數,其中比較好的結果,
: 才變成現在的版本,這種工程調整,跟人類的圍棋知識也沒有關係。
: 所以這不是圍棋專用的算法,如果這樣還要說是用到了人類圍棋知識,
: 那就隨便他了。

很抱歉, 又來礙眼了. 如果認為我是來亂的, 那請退出, 不要浪費您的時間.
很多分散在推文可能講不清楚, 容我用最後一篇寫跟這主題相關的.
但如果板主認為這樣的文章不適合出現在這板, 請刪掉或來信叫我自刪.

首先很簡單的澄清, 我已經有兩個兒子了, 大概很難被定義成屁孩.
兒子大到覺得老爸陪他去學棋是丟臉的事.
原本跟他說, 我載你去, 之後又要來接你. 不如停個車,
我也付錢一起學一下, 卻被斷然拒絕.

去年人機大戰開始關心圍棋, 當時第一次聽到李世石這個名字, 就知道我有多菜.
人機大戰時是希望機可以贏, 應該不會有什麼人類尊嚴的心結.
以往陪著兒子去比賽, 在場邊無所事事一天, 今年夏天索幸自己也報名.
某次僥倖升段, 但絕對是全台最水的段位棋士, 問題只在能不能偷加個 "之一"
跟板友們程度差太多, 但還是略懂一點點, 不是什麼都不知道.

數學統計出身, 也做一點 learning.
因為數學的訓練, 讓我對很多事很小心, 很在意. (雖然在這板是被認為沒邏輯)
一個訊息有沒有被用到, 有沒有乍看沒用到, 但實際有用到, 這是我在意的.

如板主建議, 應該要先把定義講清楚, 再做討論.
(這其實我很喜歡, 完全符合數學模式. 向來是被抱怨太死板, 講那什麼定義.)

什麼是 "人類圍棋知識" ? 其實論文題用的是更強的 human knowledge,
但我相信它只是把後面的 in GO 略掉, 應該是那意思.
有網友提到, 在 AI 界的定義, 棋譜不算人類圍棋知識.
但從 deepmind 自己也是 AlphaGo Zero 才稱沒用到人類知識,
他們應該也是把棋譜當做是人類圍棋知識.

對我來說, 除了規則外, 人類了解規則後, 對這規則所演生的想法, 成品, 表現,
都歸類為人類圍棋知識.

棋譜沒有直接告訴你棋理, 但它是棋理的展現.
從棋譜可以看到人類怎麼下, 可以歸納人類怎麼想.
用了棋譜的資訊, 說是沒用到人類圍棋知識, 或許對 AI 界的術語是那樣,
但我相信對於大部份白話的用語, 不是這樣的.
我若打了一堆本因坊秀策的棋譜, 我能說我沒用到本因坊秀策的知識?


以下討論, 就局限在我個人的定義, 不認同的, 也沒有必要繼續看下去.



如 AlphaGo Zero, 一個方法, 程式, AI 等, 它通常有一個架構, 模型, 或是流程.
而再細看, 其間有很多要被微調的參數, 才能讓這方法有優異的表現.

現在有幾個讓人關心的問題, 參數的估計有沒有用到人類圍棋知識? 模型架構的
選取有沒有用到人類圍棋知識?

一個沒有爭議的是, AlphaGo Zero 在參數優化估計上, 它沒有用到人類圍棋知識.
因此, 如果說法是, 在 AlphaGo Zero 的架構被決定後, 接下來它不需要人類圍棋
知識就可以變如此強, 這就也完全沒有爭議.

但它下的標題是: Mastering the game of Go without human knowledge
我不知道大家怎麼解讀這個句子.
我個人是認為 (可能您就不這樣認為) 不懂 AI 不懂圍棋的大眾, 會以為有個 AI,
在只知道規則下, 不需要藉助任何人類圍棋知識, 就能精通圍棋.

若是上述的陳論, 那我就無法同意了. 優化的過程, 除了參數的優化, 模型的選擇
也是重要的步驟. 參數的優化沒用到人類圍棋知識, 沒有爭議. 但模型選擇呢?

有人說, 那只是工程上的問題. 這我是完全無法認同的. 模型的選取, 直接影響整
個方法的表現, 通常不只是快或慢而已. 解很可能不一樣的.

至於我這篇一開始引的. 是的, ResNet 當紅, 拿來試試是自然的. 問題是怎麼試?
不用試了, 就是它, 直接開始自戰, 是嗎? 我想有經驗的人不會這樣做. Deepmind
也沒這樣做, 它還是先測試了學人類棋譜的 master 板本, 才再去試自戰的.

引個 https://tinyurl.com/y85ukxhn 文末的話:

"The clever insights making Zero better was due to humans, not any
piece of software suggesting that this approach would be good.
I would start to get worried when that happens."

我想說的是, 在這新聞報導出來, 很多人會被誤導 AI 可以僅憑規則, 無師自通.
但它其實沒有被證實 (下一段補充) 那麼厲害. 它仍然是需要人類圍棋知識幫它
打好架構, 引導它往哪方向走. 對我來說, AlphaGo Zero 自戰學習, 這所謂的
學習, 其實只是更廣義的計算. 電腦計算比人類強, 這大家已經沒疑問. 而現在
的學習, 其實只是 "隨機計算", 這個電腦更該比人強. 但電腦程式的角色其實廣
義上仍然是幫人類算人類無法自己算的地方, 它並沒有自己學習.

(關於上一段說要補充的. 或許 AI 真有這個能力, 但是, deepmind 似乎不是走
這樣的流程)

另外本文一開始引的也提到, 這不是圍棋專用的, 所以不算是圍棋知識. 我同事
目前在做, 當有 incomplete or delayed 訊息的遊戲, ResNet 是否也能做得好?
另外像是加入隨機, AI 無法得知最後成敗是因運氣還是功力, 那是否會讓它不易
學習? 或許有人可以歸納出圍棋是屬於怎樣的遊戲, 而這樣的遊戲, 用 ResNet +
MCTS 都可以做得好. 但這是根據規則, 了解這個遊戲的特性, 這難道不也是一種
人類的圍棋知識? 是 AI 自己能懂的嗎?

有人把這篇看完了嗎? 我非常佩服你. 我覺得我若是讀的人, 可能也看不完.
我想我的想法都陳述了, 這是最後一篇, 相關話題不會再發文污染這個板.
若有興趣繼續討論的人, 歡迎私信討論.

--
Tags: 圍棋

All Comments

Joe avatar
By Joe
at 2017-11-15T22:21
id真眼熟,好像以前在LGS見過耶
啊 看錯了
Necoo avatar
By Necoo
at 2017-11-18T06:33
其實大家都解釋的很清楚了 是你自己鑽牛角尖 定義又跟別人
不同 甚至快接近無限上綱 了解這遊戲的特性後然後做些對工
程上比較方便的事 跟大家在這裡所謂的是否用到人類知識 根
本是兩碼子的事...
Annie avatar
By Annie
at 2017-11-20T08:26
人家nature都accept了 你還要自己認為?
Tom avatar
By Tom
at 2017-11-22T23:30
還是說要電腦自動產生程式碼才是無人為? XDD
Brianna avatar
By Brianna
at 2017-11-25T02:51
如果要說nature accept這件事 其實跟他提的問題無關 不要因
為nature接受這篇論文就說別人自以為是比較好的...
Brianna avatar
By Brianna
at 2017-11-25T23:02
這個問題其實當場有另一位講者有質疑黃博士(也是另一位AI
Catherine avatar
By Catherine
at 2017-11-26T19:53
的高手) 但黃博士的看法是可以接受的 他認為這個過程中所
取得結果的過程有圍棋的影子 但是實際上採用在Zero的方式已
經完全沒有 可以搬到別的遊戲上直接使用...
Olga avatar
By Olga
at 2017-11-29T06:31
另外,AGZ其實真沒一開始跟Master對戰學會 在演講中黃博士有
Lauren avatar
By Lauren
at 2017-11-30T22:12
說他們採用resnet在AGZ跟Master是完全不一樣的參數 而且投
Hedda avatar
By Hedda
at 2017-12-01T15:28
入的資源也不是一樣的 因為他們一開始就不認為Zero可以有那
麼快「學會」下棋 加上要發nature 不能公開, 所以跟柯潔對
Daph Bay avatar
By Daph Bay
at 2017-12-05T09:41
戰還是發表的這篇 分成兩個團隊各自進行 另外原Po你說的問
Ina avatar
By Ina
at 2017-12-07T08:42
題中 用用看不用試這件事 其實很可能就是真的 因為這幾年搞
Connor avatar
By Connor
at 2017-12-08T03:09
理論的人 普遍認為搞工程的人對於這些practice背後理論證明
Agatha avatar
By Agatha
at 2017-12-11T00:25
底子不足...XD
Sarah avatar
By Sarah
at 2017-12-15T06:40
昨天有說Deepmind團隊當初做Zero,就是請黃博士把
所有Zero有用到人類知識的部分的code一行一行刪除
Elizabeth avatar
By Elizabeth
at 2017-12-17T19:35
剩下給另外一個團隊搞,所以就看你相不相信黃博士(?
Jacky avatar
By Jacky
at 2017-12-22T18:20
所以AGZ的程式主要不是Aja負責的,所以nature論文他才
會排到第五去了
Kristin avatar
By Kristin
at 2017-12-25T06:38
請問那zero目前的程式是for遊戲還是已經for所有purpose?
Cara avatar
By Cara
at 2017-12-26T07:15
For general complete information game.
Christine avatar
By Christine
at 2017-12-26T08:21
所以我才會希望隨便延用到任何的棋局遊戲像象棋來證明..
Emily avatar
By Emily
at 2017-12-26T15:53
那同樣還是工程決定 目前不存在通用的架構
Agatha avatar
By Agatha
at 2017-12-30T05:52
所以下一步才會是即時戰略 因為根本上差很多
Zora avatar
By Zora
at 2018-01-01T21:15
如果堅持要一魚n吃才算 那連人類也做不到
Christine avatar
By Christine
at 2018-01-04T14:04
有人下棋和打麻將思考的方式會一樣嗎?
Hedy avatar
By Hedy
at 2018-01-07T22:19
打麻將牽涉到記憶跟摸牌出現機率的問題,電腦優勢太多了
James avatar
By James
at 2018-01-12T16:35
優勢太多但不是穩贏 因為有無法控制的因素
這是遊戲規則不同可能造成的影響
Harry avatar
By Harry
at 2018-01-16T05:16
棋譜本來就算人類圍棋知識啊...誰說不算的?
Zanna avatar
By Zanna
at 2018-01-18T06:55
棋譜廣義上是 但規則不是
人類按照規則測試挑選適當的架構 這屬於工程範圍
Quintina avatar
By Quintina
at 2018-01-20T15:01
至於模型選擇,可以自己用不同模型對下,那個勝率高就
選哪個吧?為啥一定要用人類棋譜驗證?
Michael avatar
By Michael
at 2018-01-22T04:25
看到最後面....嗯!遊戲創始者跟規則設定者,雖然擁有一開
Jack avatar
By Jack
at 2018-01-26T14:29
始的所有遊戲的規則,但並不一定是玩得最好的,甚至有可能
在旁人看來不太會玩遊戲,因為他沒深入遊戲去練習技術。
Audriana avatar
By Audriana
at 2018-01-28T03:35
棋譜當然是人類圍棋知識啊
Xanthe avatar
By Xanthe
at 2018-01-31T02:43
原po要將圍棋知識定義的如此廣我沒意見,但試想一個情況
Ethan avatar
By Ethan
at 2018-02-02T11:40
如果一個記憶力很好的小朋友只是背了很多棋譜,沒有任何
Ivy avatar
By Ivy
at 2018-02-04T23:47
定石、死活、厚薄的觀念,你會認為他有很豐富的圍棋知識
Harry avatar
By Harry
at 2018-02-09T09:04
還是只是有驚人的記憶力? 更何況AlphaGO初版選擇輸入棋譜
Tracy avatar
By Tracy
at 2018-02-11T00:20
時並沒有像ZEN一樣特別挑高手棋譜輸入,受人類圍棋觀念
Jessica avatar
By Jessica
at 2018-02-12T15:02
更小
Quanna avatar
By Quanna
at 2018-02-15T10:40
你沒有規則,就會產生AI沒氣卻不提子的狀況
所以規則是必要的
Lydia avatar
By Lydia
at 2018-02-16T06:59
沒規則怎知道你在玩五子棋黑白棋還是圍棋
Linda avatar
By Linda
at 2018-02-20T03:25
啊就Complete information game了還在麻將
Todd Johnson avatar
By Todd Johnson
at 2018-02-20T17:34
沒規則還想教孩子啊XD真X孩

Leela 0.11.0 & Leela Zero

Liam avatar
By Liam
at 2017-11-10T14:28
出一陣子了,不過看來還沒人貼過,就貼一下 來源 https://www.sjeng.org/leela.html Windows版載點 https://www.sjeng.org/dl/setupLeela0110.exe 另外有趣的地方是,他們也開始了leela-zero的計劃 https://gi ...

如果有機會問黃士傑博士問題

Frederica avatar
By Frederica
at 2017-11-10T09:19
你會想要問什麼? 圍棋 AlphaGo相關的問題 歡迎留言討論 我想收集些題目 感謝 - ...

黃士傑返台分享AlphaGo Zero開發過程

Edith avatar
By Edith
at 2017-11-10T01:32
※ 引述《jamesho8743 (加拿大好美)》之銘言: : 所謂人類圍棋知識 是專指人類and#34;在棋盤上and#34;的著手 應法 思考 這叫圍棋知識(不包括基本規則) : AGZ and#34;就算有and#34; 建立在之前 AlphaGo的基礎上 比如說要用 幾層類神經網路 MCTS 或其它 ...

黃士傑返台分享AlphaGo Zero開發過程

Hamiltion avatar
By Hamiltion
at 2017-11-09T23:06
※ 引述《tlchen (台灣加油)》之銘言: : ※ 引述《qweewqq (風一樣的男子)》之銘言: : : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 : 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. : ...

黃士傑返台分享AlphaGo Zero開發過程

Belly avatar
By Belly
at 2017-11-09T14:31
※ 引述《tlchen (台灣加油)》之銘言: : ※ 引述《qweewqq (風一樣的男子)》之銘言: : : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 : 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. : ...