改良 AlphaGo 的收官 - 圍棋

Elizabeth avatar
By Elizabeth
at 2016-03-15T23:39

Table of Contents

AlphaGo 的官子說實在有點... 怪, 對於高手而言甚至會得到弱的評價.

不過這很可能是因為它知道怎麼贏, 不知道怎麼贏多一點的問題.

想像一下 AlphaGo 接近終盤已經贏了十目左右的情況.
如果它可以算清, 很多走法的勝率都會是 100%
可是它不知道怎麼收官能贏最多 (職業棋士眼中的最佳手順)
隨便挑一條 100% 走的情況, 贏半目到十目左右都有可能.

如果它真的有算清 (再次強調 "算清") 其實不影響輸贏.
只是會給人類有種錯覺, 官子下這麼爛? 人類多下幾手有機會翻盤.
但下到最後會發現... 人類怎麼收都輸一些.

要看出 AlphaGo 收官的實力, 可能要終盤前小輸幾目.
這時候好手順的勝率才看得出相對較高, 往勝率高的走自然比較接近最佳手順.

要改良 AlphaGo 優勢下隨便收官的問題:

判斷勝率的 value network 根據固定貼目而來.
這也是為什麼 AlphaGo 原本設定中國制 7.5 目, 不方便突然改成韓國制 6.5 目.
如果真的改成韓國制而這一版的 AlphaGo 又持白,
好死不死走上勝率 100% 但只贏 0.5 目的那條路, 實際上是輸 0.5 目.

value network 應該可以同時訓練出不同貼目設定下判斷輸贏的版本.
類似佐為對戰塔矢行洋時, 自認為要多贏十幾目才算贏.

那麼在有多條路徑回報勝率 100% 時 (通常是官子階段優勢局面)
換成問多貼一點目的 value network, 本來 100% 的路徑就會下降看出誰高誰低.
也就是說本來贏 0.5 目算贏, 突然跟它說得多贏幾目才算贏, 它就會認真收求勝.

如此 AlphaGo 應該有能力在優勢局面下收出比較正確的官子贏最多.
而且大官子階段多賺一點, 沒算清的時候也比較不會被翻盤.

--
Tags: 圍棋

All Comments

Poppy avatar
By Poppy
at 2016-03-19T05:34
阿發狗是低階人工智慧,才不管大勝
Kama avatar
By Kama
at 2016-03-21T08:10
現在的Alphago看起來大概都是推估以勝率為優先
Isabella avatar
By Isabella
at 2016-03-23T01:14
只是說若以勝率為優先可以下到贏九段的水準,那代表人類
對圍棋的認知還有很大的突破與成長空間
Regina avatar
By Regina
at 2016-03-23T23:29
努力求勝會下出很多智障手,看第四盤末的狗
James avatar
By James
at 2016-03-24T23:49
努力求敗狗
Joe avatar
By Joe
at 2016-03-25T03:11
第四盤最後幾手我一直覺得是 MCTS 的 bug... XD
Candice avatar
By Candice
at 2016-03-26T06:22
讓狗有落後的錯覺,奇妙的著手就會一直出現,所以還是不要
給狗太大的壓力才是對他好
James avatar
By James
at 2016-03-29T05:11
14座世界冠軍現世界第4有20%機率給2歲狗壓力樓上+油
Frederica avatar
By Frederica
at 2016-04-03T00:21
就人類太弱
Iris avatar
By Iris
at 2016-04-06T15:00
但是柯潔蠻早就算到輸了,其他台都一直在點目
Rae avatar
By Rae
at 2016-04-08T21:45
同意這說法 勝率相同的路徑 AG似乎就沒辦法判斷哪各較好
Aaliyah avatar
By Aaliyah
at 2016-04-12T15:52
或許也可再加輔助條件 在勝率一樣時才能幫助做選擇...

寺山憐日本圍棋苦寒的背影 望重新贏回尊重

Vanessa avatar
By Vanessa
at 2016-03-15T23:26
推 aufmnui: 給種子數是尊重,但不好好選種子棋手算不算不尊重呢?給 03/15 21:57 → aufmnui: 感覺就是日本棋院只想玩自己的頭銜賽,然而又占着國際賽 03/15 21:57 → aufmnui: 的名額 ...

有關"深度學習"的文章

Victoria avatar
By Victoria
at 2016-03-15T22:39
※ 引述《OxfordGOD (牛津神)》之銘言: : http://www.bnext.com.tw/article/view/id/38923 : 目前我在網路上看到這篇介紹的比較詳細 : 可以看看 : ps: 我是一日棋迷.. : 但我會關注這個是因為我之前的論文是用類神經網 ...

再和alphago重覆同一盤棋?

Belly avatar
By Belly
at 2016-03-15T22:38
不好意思,有個問題想了好一會兒,實在是不確定答案, 想來也只有這個板最合適問。 倘若重覆alphago第一盤和李世石的對奕內容, 那麼,alphago還會下出一樣的步數嗎? 我的直覺告訴我,應該是不一樣, 但,到底隨機的機轉及其比重占了多少,實在是不懂如何去思考, 請問有人能釋疑? - ...

推薦初學者自學圍棋的書籍

Jessica avatar
By Jessica
at 2016-03-15T22:37
各位版友大家好, 小弟我是因為這次人機大戰才知道圍棋 (面壁 這五戰百分之九十九都看不懂,多是聽古力講解 (但還是不懂 但是我深受圍棋的複雜多變及棋手雙方(?)絞盡腦汁只為下出 神之一手的那份精神所吸引。因此想開始學下圍棋,由於沒有固定 的空閒時間加上自己已經有把年紀的因素,想先看書自學,不知 ...

關於人機大戰第5戰

Sarah avatar
By Sarah
at 2016-03-15T22:26
今天下午alphaGO跟李世石第五戰結束 最後很多人推文說是險勝 贏1目半或2目半的都有人講 可是我剛剛看了下面這個影片 https://www.youtube.com/watch?v=_5wL2LCHF5E 最後投降時顯示白勝10目半耶 照理說電腦軟體數目應該蠻準的吧 而且離收官完畢也剩沒幾步 ...