https://arxiv.org/pdf/1712.01815.pdf
這次論文的標題是:
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm
從零學棋,
使用相似的神經網路架構,
一樣沒有使用任何人類知識,
4小時打敗西洋棋最強軟體Stockfish,
2小時打敗將棋最強軟體Elmo,
34小時打敗圍棋AlphaGoZero 20blocks 3天版本,
(圍棋其實有些爭議,因為他這次用了5000TPU,上次AlphaGoZero只用2000TPU),
以MCTS打倒傳統的alpha beta search,
通用於完全訊息遊戲,
又一偉大的突破。
--
這次論文的標題是:
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm
從零學棋,
使用相似的神經網路架構,
一樣沒有使用任何人類知識,
4小時打敗西洋棋最強軟體Stockfish,
2小時打敗將棋最強軟體Elmo,
34小時打敗圍棋AlphaGoZero 20blocks 3天版本,
(圍棋其實有些爭議,因為他這次用了5000TPU,上次AlphaGoZero只用2000TPU),
以MCTS打倒傳統的alpha beta search,
通用於完全訊息遊戲,
又一偉大的突破。
--
All Comments