這兩盤棋 沒人會比李世石做得好 - 圍棋

Andy avatar
By Andy
at 2016-03-11T23:55

Table of Contents

※ 引述《nnlisalive (nnlisalive)》之銘言:
: 我覺得要從程式碼方面下手了
: 首先就是阿發狗所謂的"勝率"是怎計算出來的?
: 不外乎用盤面上所得到的資訊轉換成數據
: 再代入勝率函數得到每一點的勝率
: 那這個函數適用於任何盤面嗎? 沒有任何邏輯漏洞和盲點?
: 算出來的勝率沒有誤差? 如果有個點勝率是70%
: 具體來說應該是下了這個點跑到結束N次 有0.7*N次會贏
: 但明明就還沒下完 也不知道對方會怎下
: 所以只要能騙過電腦 讓他一直下到誤判勝率的棋

其實看很多人對AlphaGo演算法的看法好像還在以前
把作法寫死在程式裡跑Funciton的想法
所以才會說找Bug和騙電腦之類的

這就讓我想到昨天第二局騰訊那個轉播,較前面兩個解說來賓
(名字我就不曉得了,畢竟個人也沒啥圍棋經驗)
右邊那位來賓也是停留在改Code,修原始碼之類的舊式理解
左邊那位就對AlphaGo的作法,神經網路的東西理解很深

以下是個人粗淺的理解,畢竟以前沒深入研究過NN且Nature那篇也還沒看完

AlphaGo並不是把規則寫在Code裡面,而是把盤面的資料丟到一個
Model中,在Model中經過計算後吐出來一個結果來

以Policy Network來說就是吐出各點的下子可能機率
而Value Network就是該盤面的可能勝率
也就是像這樣:

Input Model Output

盤面上各點的資料
共19*19 = 361維

[1, 2, ..., 361] -> Policy Network -> 各點下子可能機率
Value Network -> 盤面的可能值

真正重要的是Model中的計算參數(而且可能有非常多個)
才是決定這麼Model好壞的關鍵
當然這個關鍵是不用人手去調的,而是以過去的資料去對Model進行"訓練"
也就是參數的調整,讓這個網路能越來越符合我們要的結果
就是在之前討論或文章中作SL(Supervisor Learning)的部分

但這要有過去的資料才能作到,因此AlphaGo還多了一步
是在過去的資料上繼續自己創造資料與結果
也就是RL(Reinforcement Learning),來不斷的自我訓練
不斷的加強自身強度

所以常常看到有人說找Bug和對原始碼下手,但其實這是不對的
這個計算系統是隨時隨地在變動的
如果有一般人所謂的Bug(系統實作上的問題)也早就找出來了
要也是要對Model和系統本身的弱點來下手,但NN會在不斷的訓練逐漸趨近最佳解
所以要"騙"或找Bug是非常困難的甚至沒意義的

--
Tags: 圍棋

All Comments

Daph Bay avatar
By Daph Bay
at 2016-03-16T02:31
AlphaGo 沒有弱點了?找出下法的弱點不能稱為找bug?
Anonymous avatar
By Anonymous
at 2016-03-17T11:06
我覺得輸出結果不是設計師所預期的就是BUG了
Necoo avatar
By Necoo
at 2016-03-20T21:07
在訓練模式中,model本身是可以回饋自己修改自己的函數
Genevieve avatar
By Genevieve
at 2016-03-25T08:21
所以如果都輸入某人的棋譜,這函式就會有某人的風格
Vanessa avatar
By Vanessa
at 2016-03-28T19:01
輸出結果當然不見得是設計師預期 不然AG就只有黃世傑的棋力
Isabella avatar
By Isabella
at 2016-03-29T19:25
電腦的計算能力跟心理素質確定比人類強 其他地方可未必
Kristin avatar
By Kristin
at 2016-04-02T05:22
AG在這個回饋機制中不斷的修正自己的函數群 就會變"強"
Bennie avatar
By Bennie
at 2016-04-04T11:21
要統稱為bug也不是不可,但這個案例的問題在於你很難評估
這所謂的「bug」到底是好的或壞的
Irma avatar
By Irma
at 2016-04-05T13:32
過去我們都說bug是壞東西要debug,但這類演算法的輸出原本
Kelly avatar
By Kelly
at 2016-04-07T02:57
就不是原設計者可以預期的,因此不管是人想不到的好手或是
真的爛下法都會因此被你統稱為bug,結果就是即便你抓到了
這些「bug」也會因為你無法分辨是好bug還是壞bug而仍然難
John avatar
By John
at 2016-04-09T12:41
以利用
Necoo avatar
By Necoo
at 2016-04-12T09:42
簡單來說 你所謂的bug只會發生在code本身有沒有寫錯
Rebecca avatar
By Rebecca
at 2016-04-16T22:31
這種架構下 邏輯是不會出錯的 而且現在已經驗證可以打
Gary avatar
By Gary
at 2016-04-17T15:42
因為他的架構太複雜 輸出具有不可預測性
只能直接上線測看看到底有沒有用
Damian avatar
By Damian
at 2016-04-22T09:25
換個說法 做這東西就是拿來下棋 強度? 不知道
Olive avatar
By Olive
at 2016-04-23T20:32
RL在這十幾年來 常常做為訓練board game AI的手段
Emily avatar
By Emily
at 2016-04-26T23:38
左邊那個博士說的什麼啊﹐還alphago自動改程序﹖
Edith avatar
By Edith
at 2016-04-30T15:29
右邊的俞斌寫過圍棋程式的﹐左邊不太會解釋啊

大家覺得柯潔會接受Alphago的挑戰嗎?

Todd Johnson avatar
By Todd Johnson
at 2016-03-11T22:09
李世石以0-2落後,除非能連贏三盤,否則就要輸給Alphago 這次柯潔很搶眼,微博粉絲也從1萬人暴增到21萬 加上他摩拳擦掌,躍躍欲試 倘若Alphago真的戰勝李世石,大家覺得目前世界第一的棋王柯潔會應戰嗎? 這次李世石遭受到很多輿論跟同行的批評,對他而言參加這次比賽不知究竟是好是壞 倘若柯潔照 ...

葉罡廷七段 人機大戰兩盤棋的心得

Ivy avatar
By Ivy
at 2016-03-11T21:50
https://www.twitch.tv/mariakoutei42/v/53724454 這是我對這兩盤人機大戰的心得 分享給有興趣的棋友們~ 謝謝大家 -- Sent from my Windows - ...

柯潔-李世石

Harry avatar
By Harry
at 2016-03-11T21:38
※ 引述《wayne40424 (wb945)》之銘言: : 請問到底柯潔跟李世石誰才是世界第一棋手 : 柯潔講的好像自己才是 : 但是成績看起來好像李世石比較好誒 : 如果是柯潔強那為什麼找李世石啊 : ????? 雖然這篇問的真的超X 但我覺得這篇不回 又有人想要拿柯潔和李世石做文章了 首先, ...

裁判說話了 樊麾:無不許打劫密約

Edith avatar
By Edith
at 2016-03-11T21:35
賽后,李世石也遭遇了突襲,有記者問:是否與Google簽署了保密 協議,對局過程中不許打劫爭勝?對此,強顏歡笑的李世石似乎答非所 問:“我中間確實有勝機,以後比賽會盡力下好。” 樊麾闢謠:請尊重李世石 “我很想質問一下那些對and#39;不許打劫and#39;懷有疑問的職業棋手,如果是你 們上場與 ...

一台勝負機器讓圍棋遭“末日”?

Eartha avatar
By Eartha
at 2016-03-11T21:27
人機大戰猜想:一台勝負機器讓圍棋遭“末日”? 中新網北京3月11日電(記者 王牧青) 0-2,李世石連續不敵人工智慧“阿爾法圍棋”, 業界唏噓,大眾驚歎。中新網記者採訪了多位元圍棋界重量級人士,發現幾個疑問:“阿 爾法”下的是圍棋,還是 簡單的勝負?李世石的失敗,是否意味著圍棋的“末日”,它 對圍棋的未來將 ...