李世石 Go! Go! Go! - 圍棋

Ivy avatar
By Ivy
at 2016-03-12T03:00

Table of Contents

※ 引述《bbbtri (cycling)》之銘言:
: 本來想問這裡沒有人有可以出來解釋一下這篇(講AlphaGo用的演算法)
: http://benkampha.us/posts/2016-03-11.html
: (不過不知道為什麼, 連結好像失效了?)
: 只大概看了一下, 因為連什麼是hand coded evaluation都一頭霧水啊 XD
: 其中提到兩種演算法, 一組叫policy network,用來模仿人類的棋步, 很妙
: 另一組是value network,用以判斷一個棋步有多少價值(應該無關好壞,而是目數)
: 前者還有分階段, 先supervised後reinforcement
: 而後者並不是放手讓電腦自行去繞,而是有給點指示
DeepMind 學習打磚塊的過程
https://www.youtube.com/watch?v=V1eYniJ0Rnk

人類給予的提示只有把分數提高, 自我訓練幾個小時就可以達到專家的水準.
一開始 AI 亂數決定移動的方法.
後來它會發現到亂到特定的地方不漏接球能提高分數,
給予的回饋會強化類神經網路讓它的移動方式盡量不漏接.
厲害的在後面, 最後它會學到先鑽通道是最有效的得分方式.
這不是人教的, 人只跟它說, 把分數給我打高, 其它自己想辦法.

但像圍棋這麼複雜的東西, 直接用亂數下學習的過程太緩慢了.
AI 的做法是先盡量下的跟高手一樣, 因為高手可能的下法幾乎包含了最佳解.
AI 從這些候選走法往下找可以節省大量時間空間.
透過大量的高手對戰譜訓練出一個迅速模仿高手次一手的 policy network.

value network 是型勢判斷, 給予一個特定盤面就能夠迅速回報勝率.
AI 開出千萬分身自我對練高手的棋路到終局 (最後誰贏電腦可以判斷的夠準)
然後回溯盤面, 訓練出一個可以估計任何盤面勝率的 value network.
目前看起來訓練的越多, 估計的會越準確 (棋力越高)

如果任何盤面勝率都可以正確估算, 基本上圍棋就被破解了.
因為電腦可以知道從第一手到終盤的最佳走法.
拿黑棋如果不貼至少會贏幾目, 而且只有特定棋譜可以達到.

有了 policy network 跟 value network,
AI 就可以試下各種高手次一手, 再加上有效率的蒙地卡羅搜尋法,
盡可能把勝率高的次一手展開往下運算, 提高勝率估算的準確度.

可以把它想像成很多高手提供次一手的下法, 那就來下下看, 看誰說得對.
但要留意, AI 的目標是勝率最高 (反擊手最少), 不是目數最多, 不是棋型最美.
看 AlphaGo 下棋會讓我想到以前打道策的譜, 許多著手都是天馬行空.
怎麼看都很奇妙, 但最後就是會贏.

: 大概是這樣, 不過我更想知道這個convolutional neural networks是什麼?
: 和節點的類神經網路有什麼不一樣啊?
convolutional neural networks 是類神經網路的一種
它的概念是想模仿生物的視覺, 同時具有巨觀跟微觀的觀察能力.

: 人可以像時間暫停般做收官的, 除了AI, 恐怕還是只有李昌鎬做得到
: 但現在已經不是李昌鎬的全盛期了....AlphaGo還是來的太晚了
: 我覺得很可惜啊
: 好在官子不是圍棋唯一的特色
: 李世石這個有閱歷又藝高人膽大的, 多變的風格正適合這種前無古人的對局!
: 在經過兩次對局、探到對手的能耐後, 他會進行什麼樣的布局?
: 畢竟, AlphaGo會進步, 而李世石也會啊!
: 期待明天的對奕~
我在想甚麼樣的方式可以打敗 AlphaGo

因為 AlphaGo 是模擬高手次一手, 人類下出前所未聞的好手 (新定石新型新佈局)
才有機會把 AlphaGo 導向勝率估不準的局勢上 (因為對練很少往那邊下缺乏經驗)

舉例而言, 應該沒有人比武宮正樹更懂宇宙流.
假設 AlphaGo 回到武宮以前的時代砍掉重練, AI 對於宇宙流的局勢不熟.
武宮對 AlphaGo 用三連星開局或許可以把 AlphaGo 壓著打.

不過壓著打也是一時, 跟武宮下棋 AlphaGo 可以學到宇宙流的各種變化.
透過自我對練熟悉宇宙流的各種局勢, 從而做出較準確的估計.

AlphaGo 你打贏它, 它就會再度進化.

人類生命有限, 技藝的傳承速度緩慢.
AI 可以有效的繼承人類全體的經驗, 加速技藝的提昇.

藤澤秀行曾說, 圍棋如果有 100, 他最多懂的不過 6、7.
有沒有想過, AI 繼續發展下去可以讓職業九段兩子三子甚至九子?
人類要探索圍棋的極限, 得靠 AI 的輔助.

--
Tags: 圍棋

All Comments

Oliver avatar
By Oliver
at 2016-03-13T20:07
總分100分 秀行只有7分??? 他講過這樣的話???
Sandy avatar
By Sandy
at 2016-03-14T22:49
讓九段九子能贏,我請全PTT吃雞排
Odelette avatar
By Odelette
at 2016-03-18T22:43
對啊 乾脆說AI進步到極限可以心靈控制 所以九段都變白癡
Elizabeth avatar
By Elizabeth
at 2016-03-22T21:20
秀行是說6 不是說7 當時是秀行和將棋界芹澤博文對談
David avatar
By David
at 2016-03-24T20:39
大家把自認對自己的領域了解多少寫在紙上,再一起打開
Ophelia avatar
By Ophelia
at 2016-03-28T07:47
結果芹澤寫 4、5 藤澤寫 6
後來藤澤表示 寫得比芹澤多 總覺得有些慚愧
Dora avatar
By Dora
at 2016-03-29T23:49
如果是未來的某一天 讓9子不無可能阿...
Emily avatar
By Emily
at 2016-03-31T07:10
讓九子太難想像
Suhail Hany avatar
By Suhail Hany
at 2016-04-03T22:11
李世石輸電腦以前也是非常非常難以想像的
Xanthe avatar
By Xanthe
at 2016-04-07T15:32
我覺得是不同概念 讓九子幾乎快要像是必勝局面
Cara avatar
By Cara
at 2016-04-11T19:47
我懂你意思啦
Lucy avatar
By Lucy
at 2016-04-14T18:25
讓九子 有可能value network算出來每一手勝率都低到靠北
Margaret avatar
By Margaret
at 2016-04-17T19:54
無數次的試驗次一手w
Linda avatar
By Linda
at 2016-04-22T03:48
其實ai若說有弱點 反而是學習沒有效率
Elvira avatar
By Elvira
at 2016-04-25T07:56
現在這個ai你可能要用同一手打敗他幾百次才學會
Hamiltion avatar
By Hamiltion
at 2016-04-27T08:13
人類輸一次就會有很多啟發了
Rosalind avatar
By Rosalind
at 2016-05-02T06:39
啟發是很難 因為它不會transfer learning

別以為和職業棋手想法不同就是錯

Adele avatar
By Adele
at 2016-03-12T02:30
別以為和職業棋手想法不同就是錯,AlphaGo有自己的「價值觀」 http://www.guancha.cn/chenjing/2016_03_10_353467_s.shtml 陳經 2016年3月9日,谷歌圍棋人工智能程序AlphaGo在和人類頂級棋手李世石五盤大戰的第一局中,執白186手中盤勝。這 ...

國象世界冠軍王玥談人機大戰

Elvira avatar
By Elvira
at 2016-03-12T01:25
國象世界冠軍王玥談人機大戰:擁抱科技無需悲觀  觀看完Alpha略有瑕疵的贏下第一局之後,看到網上很多圍棋愛好者還是第一次接觸到 棋類的軟體,無法接受這樣的結果,我覺的大可不必如此。國際象棋的軟體發展要領先與 眾多棋類至少十年的時間,作為中國第一批接觸到棋類軟體的專業棋手,我在數十年間看 著軟體一步步的成長 ...

阿爾法的招武宮也想不到 金志錫:讓我一

Wallis avatar
By Wallis
at 2016-03-12T01:22
阿爾法的招武宮也想不到 金志錫:讓我倆有一戰  新浪體育訊  這幾天,圍棋界大地震。百靈杯世界圍棋公開賽預選賽在中國棋院打響 ,僅有一家媒體進行現場直播。棋手們比賽之後聚在一起研究昨天阿爾法與李世石的棋局 。   圍棋天地記者張大勇在賽場遇到了韓國棋手、世界冠軍金志錫,問起了阿爾法圍棋。 金志錫回答:“分 ...

科技進展對於圍棋的影響

Elma avatar
By Elma
at 2016-03-12T01:08
※ [本文轉錄自 GO 看板 #1MuljVht ] 作者: NewYAWARA (朝霞之前奏) 看板: GO 標題: Re: [閒聊] 科技進展對於圍棋的影響 (圍棋軟體歷史 andamp; 突破的AlphaGo 時間: Sat Mar 12 01:07:41 2016 如果以電腦將棋的經驗來看, 只要 ...

科技進展對於圍棋的影響 (圍棋軟體歷史 & 突破的AlphaGo

Bethany avatar
By Bethany
at 2016-03-12T01:07
如果以電腦將棋的經驗來看, 只要AlphaGo除了贏棋目標之外,多搭載形勢分析、 以及步數模擬推演的機能,許多讓人無法理解的走法, 一樣可以變成讓人易懂可學的模式。 例如我以GPS將棋(雖然現在它算弱的將棋軟體)來跑2014年名人戰第一局棋譜, 在第105手下完後,推估後手第106手該如何下時, 軟體的分析 ...