改良 AlphaGo 的收官 - 圍棋

By Elizabeth
at 2016-03-15T23:39
at 2016-03-15T23:39
Table of Contents
AlphaGo 的官子說實在有點... 怪, 對於高手而言甚至會得到弱的評價.
不過這很可能是因為它知道怎麼贏, 不知道怎麼贏多一點的問題.
想像一下 AlphaGo 接近終盤已經贏了十目左右的情況.
如果它可以算清, 很多走法的勝率都會是 100%
可是它不知道怎麼收官能贏最多 (職業棋士眼中的最佳手順)
隨便挑一條 100% 走的情況, 贏半目到十目左右都有可能.
如果它真的有算清 (再次強調 "算清") 其實不影響輸贏.
只是會給人類有種錯覺, 官子下這麼爛? 人類多下幾手有機會翻盤.
但下到最後會發現... 人類怎麼收都輸一些.
要看出 AlphaGo 收官的實力, 可能要終盤前小輸幾目.
這時候好手順的勝率才看得出相對較高, 往勝率高的走自然比較接近最佳手順.
要改良 AlphaGo 優勢下隨便收官的問題:
判斷勝率的 value network 根據固定貼目而來.
這也是為什麼 AlphaGo 原本設定中國制 7.5 目, 不方便突然改成韓國制 6.5 目.
如果真的改成韓國制而這一版的 AlphaGo 又持白,
好死不死走上勝率 100% 但只贏 0.5 目的那條路, 實際上是輸 0.5 目.
value network 應該可以同時訓練出不同貼目設定下判斷輸贏的版本.
類似佐為對戰塔矢行洋時, 自認為要多贏十幾目才算贏.
那麼在有多條路徑回報勝率 100% 時 (通常是官子階段優勢局面)
換成問多貼一點目的 value network, 本來 100% 的路徑就會下降看出誰高誰低.
也就是說本來贏 0.5 目算贏, 突然跟它說得多贏幾目才算贏, 它就會認真收求勝.
如此 AlphaGo 應該有能力在優勢局面下收出比較正確的官子贏最多.
而且大官子階段多賺一點, 沒算清的時候也比較不會被翻盤.
--
不過這很可能是因為它知道怎麼贏, 不知道怎麼贏多一點的問題.
想像一下 AlphaGo 接近終盤已經贏了十目左右的情況.
如果它可以算清, 很多走法的勝率都會是 100%
可是它不知道怎麼收官能贏最多 (職業棋士眼中的最佳手順)
隨便挑一條 100% 走的情況, 贏半目到十目左右都有可能.
如果它真的有算清 (再次強調 "算清") 其實不影響輸贏.
只是會給人類有種錯覺, 官子下這麼爛? 人類多下幾手有機會翻盤.
但下到最後會發現... 人類怎麼收都輸一些.
要看出 AlphaGo 收官的實力, 可能要終盤前小輸幾目.
這時候好手順的勝率才看得出相對較高, 往勝率高的走自然比較接近最佳手順.
要改良 AlphaGo 優勢下隨便收官的問題:
判斷勝率的 value network 根據固定貼目而來.
這也是為什麼 AlphaGo 原本設定中國制 7.5 目, 不方便突然改成韓國制 6.5 目.
如果真的改成韓國制而這一版的 AlphaGo 又持白,
好死不死走上勝率 100% 但只贏 0.5 目的那條路, 實際上是輸 0.5 目.
value network 應該可以同時訓練出不同貼目設定下判斷輸贏的版本.
類似佐為對戰塔矢行洋時, 自認為要多贏十幾目才算贏.
那麼在有多條路徑回報勝率 100% 時 (通常是官子階段優勢局面)
換成問多貼一點目的 value network, 本來 100% 的路徑就會下降看出誰高誰低.
也就是說本來贏 0.5 目算贏, 突然跟它說得多贏幾目才算贏, 它就會認真收求勝.
如此 AlphaGo 應該有能力在優勢局面下收出比較正確的官子贏最多.
而且大官子階段多賺一點, 沒算清的時候也比較不會被翻盤.
--
Tags:
圍棋
All Comments

By Poppy
at 2016-03-19T05:34
at 2016-03-19T05:34

By Kama
at 2016-03-21T08:10
at 2016-03-21T08:10

By Isabella
at 2016-03-23T01:14
at 2016-03-23T01:14

By Regina
at 2016-03-23T23:29
at 2016-03-23T23:29

By James
at 2016-03-24T23:49
at 2016-03-24T23:49

By Joe
at 2016-03-25T03:11
at 2016-03-25T03:11

By Candice
at 2016-03-26T06:22
at 2016-03-26T06:22

By James
at 2016-03-29T05:11
at 2016-03-29T05:11

By Frederica
at 2016-04-03T00:21
at 2016-04-03T00:21

By Iris
at 2016-04-06T15:00
at 2016-04-06T15:00

By Rae
at 2016-04-08T21:45
at 2016-04-08T21:45

By Aaliyah
at 2016-04-12T15:52
at 2016-04-12T15:52
Related Posts
寺山憐日本圍棋苦寒的背影 望重新贏回尊重

By Vanessa
at 2016-03-15T23:26
at 2016-03-15T23:26
有關"深度學習"的文章

By Victoria
at 2016-03-15T22:39
at 2016-03-15T22:39
再和alphago重覆同一盤棋?

By Belly
at 2016-03-15T22:38
at 2016-03-15T22:38
推薦初學者自學圍棋的書籍

By Jessica
at 2016-03-15T22:37
at 2016-03-15T22:37
關於人機大戰第5戰

By Sarah
at 2016-03-15T22:26
at 2016-03-15T22:26