李柏鋒,黃士傑:AlphaGo Zero 只用了三天,就走過人類幾千年圍棋研究的歷程,Inside,2017/11/10
人才、運算資源都齊備,AlphaGo 計畫也正式開始了。黃士傑分享,第一個突破是運用了神經網路的技術,原本還不確定是否會有效,沒想到實驗結果出來之後,對弈原始的版本竟然是 100% 的勝率,也讓團隊為之振奮。接著而來的第二個突破,則是價值網路的技術,其實當時的模擬,AlphaGo 如果上場比賽,勝率應該有七八成,可以算是世界第一了,但是 DeepMind 的目標遠高於此,所以持續擴充團隊,才有辦法做更多的研究,解決更多的問題。
黃士傑也分享,其實在開發 AlphaGo 的過程中,每天就是訓練神經網路、測試、看勝率、觀察看看是不是有效,有很多點子和問題需要不斷的測試,像是深度學習的深度到底要幾層?用什麼架構?訓練的資料有沒有問題?當然,最終檢驗的還是 AlphaGo 的棋力有沒有變強。
在觀察的過程中,也發現 AlphaGo 有 Overfitting 的問題,解決之後 AlphaGo 就變強了,再跟上一個版本對弈,勝率是 95%,這也是為什麼演講題目訂為 AlphaGo 的成功是深度學習與強化學習的勝利。 ...
既然 AlphaGo 還有問題,自然就要繼續研究下去,全面性的把問題解決掉,這個過程花了八個月,也找來生力軍 Karen Simonyan 加入團隊。其實解決的方法就是在深度學習和強化學習的技術上,把學習能力再加強。
第一步, 先把原本 13 層的網路增加到 40 層, 也改成 ResNet, 第二步則是把 Policy Network 和 Value Network 結合成 Dual Network, 讓 AlphaGo 的直覺和判斷一起訓練。 第三步, 把 Training Pipelines 也加強。 除了人工智慧的學習能力, 黃士傑也把模仿棋、 循環劫等圍棋的問題也解決了, 再跟打敗李世乭的版本對弈, 可以讓三子( 不貼目) 還達到超過 50% 的勝率。...
而以下則是黃士傑在演講簡報上整理的五點結論:
- AlphaGo 的成功,是深度學習與強化學習的勝利
- AlphaGo 從起始到結尾,證明了團結力量才會大
- AlphaGo 的發展,TPU 與硬體資源扮演非常重要的角色
AlphaGo Zero 顯示了強化學習的巨大潛力人工智慧在可見 的未來,將成為人類重要的工具,與人類合作
沒有留言:
張貼留言