※ 引述《qweewqq (風一樣的男子)》之銘言:
: DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法
對於 "不使用任何人類知識" 這句, 我心中始終有個大問號.
首先, 在一開始的 random play, AZ 根本不知何時要停.
必須人工設定去停它. 這用到了人類知道這樣的遊戲, 應該有限步要停.
雖然 AZ 的參數是經由自我對戰學的, 但整個架構呢?
要有幾層的的類神經網路? 每層有多少節點? 層跟層間的結構?
covolution 要用 5x5 還是怎樣的大小?
要怎樣配合 VN, PN? 要用 MCTS 來尋找?
這些都沒用到人類的圍棋知識嗎?
這整個大架構, 是在學人類棋譜時, 發現這樣的架構, 可以訓練出不錯的 AI.
這架構不是隨便設就行得通的吧?
經由人類棋譜訓練, 找到一個好的大架構, 這樣可以稱作不使用人類知識?
如果今天一個完全不懂圍棋的人, 只針對規則, 就去訂了大模型架構,
然後經由自我對戰去學參數. 這樣的結果, 那叫做不使用任何人類圍棋知識.
現在這樣算嗎? 我心中實在有很大的黑人問號.
--
: DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法
對於 "不使用任何人類知識" 這句, 我心中始終有個大問號.
首先, 在一開始的 random play, AZ 根本不知何時要停.
必須人工設定去停它. 這用到了人類知道這樣的遊戲, 應該有限步要停.
雖然 AZ 的參數是經由自我對戰學的, 但整個架構呢?
要有幾層的的類神經網路? 每層有多少節點? 層跟層間的結構?
covolution 要用 5x5 還是怎樣的大小?
要怎樣配合 VN, PN? 要用 MCTS 來尋找?
這些都沒用到人類的圍棋知識嗎?
這整個大架構, 是在學人類棋譜時, 發現這樣的架構, 可以訓練出不錯的 AI.
這架構不是隨便設就行得通的吧?
經由人類棋譜訓練, 找到一個好的大架構, 這樣可以稱作不使用人類知識?
如果今天一個完全不懂圍棋的人, 只針對規則, 就去訂了大模型架構,
然後經由自我對戰去學參數. 這樣的結果, 那叫做不使用任何人類圍棋知識.
現在這樣算嗎? 我心中實在有很大的黑人問號.
--
All Comments