以AlphaGo訓練的方式來說
他是以RL(reinforcement learning)
的方式去訓練結構的參數
就我的理解 每次下完一盤(步)棋都會
依照不同的結果給的獎勵值 去調整參數
因此alphaGo會不會在這三場棋後
變成更能適應小李的下棋模式 甚至是
專門對付他的棋風(local minimum)而不是下出全局最佳解呢?
感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢?
--
Sent from my Android
--
他是以RL(reinforcement learning)
的方式去訓練結構的參數
就我的理解 每次下完一盤(步)棋都會
依照不同的結果給的獎勵值 去調整參數
因此alphaGo會不會在這三場棋後
變成更能適應小李的下棋模式 甚至是
專門對付他的棋風(local minimum)而不是下出全局最佳解呢?
感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢?
--
Sent from my Android
--
All Comments