黃士傑返台分享AlphaGo Zero開發過程 - 圍棋

Edith avatar
By Edith
at 2017-11-10T01:32

Table of Contents

※ 引述《jamesho8743 (加拿大好美)》之銘言:
: 所謂人類圍棋知識 是專指人類"在棋盤上"的著手 應法 思考 這叫圍棋知識(不包括基本規則)
: AGZ "就算有" 建立在之前 AlphaGo的基礎上 比如說要用 幾層類神經網路 MCTS 或其它
: "人類工程上"的知識 但這些跟"人類圍棋知識" 並不相同 基本上這個是工程問題 數學問題 主是跟棋盤大小
: 圍棋規則 及圍棋本質等相關的東西 而跟人類"棋盤上的著法"無關

對啊,那些推文中的質疑,都是對相關知識不了解而造成的過度猜測。

首先是終局條件和勝負判定必然要有,不然只是任意的填子,什麼都不是。
圍棋基本規則是判定一個點可不可以下,以及下了之後的輸出結果。
以上這些都是獨立的程序黑箱,沒有這些東西就下不了電腦圍棋,

其中 19*19*2 的步數當成終局條件,就是這樣夠用了,不要浪費電腦資源,
就跟電腦裡的 255 或 65535 一樣。

改用 ResNet 因為是最當紅的神經網路模型,大家都說好,到處拿第一,
只要是做機器學習,不改來用看看才奇怪,這跟圍棋一點關係也沒有。

然後主程序就是通過 ResNet + MCTS 獲得的數據來不斷自我訓練。

這幾乎是一個在固定數目的位置中填入數據的通用算法,跟圍棋的關係,
僅僅在於填入的位置、數據、填入數據後的變化、評估終局和成功或失敗,
是根據圍棋而「限定」。

換句話說,只要改上述的設定,使用這個算法可以直接變成五子棋程式,
或另外的棋,例如很多人想過把圍棋改成圓環狀(上下左右無邊的循環),
或是三維的圍棋,都可以照樣修改後讓電腦去自行修煉成大師。

在一些細部結構上,DeepMind 也試過不同的參數,其中比較好的結果,
才變成現在的版本,這種工程調整,跟人類的圍棋知識也沒有關係。

所以這不是圍棋專用的算法,如果這樣還要說是用到了人類圍棋知識,
那就隨便他了。

--
Tags: 圍棋

All Comments

Cara avatar
By Cara
at 2017-11-12T03:23
推~把工程知識當成圍棋知識真的很無言
Ophelia avatar
By Ophelia
at 2017-11-14T10:57
老實說不用跟那人廢話了...講不通的xD

CGI死活強度

Joe avatar
By Joe
at 2017-11-08T21:33
https://i.imgur.com/q5IapNa.jpg 短短讀秒間下出白198妙手做活,隨後黑立即投子 相信連韓國職業六段卞相壹也沒發現可以做活 不然不會棄中間圍殺上方 CGI死活程度AI來講可說是相當強大 - ...

黃士傑返台分享AlphaGo Zero開發過程

Christine avatar
By Christine
at 2017-11-08T20:23
※ 引述《qweewqq (風一樣的男子)》之銘言: : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 對於 and#34;不使用任何人類知識and#34; 這句, 我心中始終有個大問號. 首先, 在一開始的 random play, AZ 根 ...

有適合小朋友初學棋的影片嗎?

Wallis avatar
By Wallis
at 2017-11-08T15:50
如題,目前在水管上只有找到一個 https://www.youtube.com/watch?v=fizBDO90S6Uandamp;list=PLku534PwIYW2cM0jT54HMPb5pyXR-uEo2 這是大陸美女(?)棋士吳文婷5段的教學影片(說真的實在是看不出來她有5段耶) 不過感覺這個品質有點 ...

某安是不是自我感覺太過良好?

Enid avatar
By Enid
at 2017-11-07T18:41
http://0rz.tw/m0ujF 真的有這麼好 講不得啊 呵呵 - ...

[棋訊] 第22屆三星杯世界圍棋公開賽4強

Enid avatar
By Enid
at 2017-11-07T10:48
10:00開賽 中午不休息 每方2小時,5次1分鐘讀秒 地點:韓國大田 11/6 Day1 [韓]安國炫 白中押勝 [中]唐韋星 [中]辜梓豪 黑中盤勝 [中]童夢成 11/7 Day2 [韓]安國炫 黑中押敗 [中]唐韋星 [中]辜梓豪 白中押敗 [中]童夢成 11/8 Day3 ...