11/15/2017

黃士傑:AlphaGo Zero 只用了三天,就走過人類幾千年圍棋研究的歷程

人才、運算資源都齊備,AlphaGo 計畫也正式開始了。黃士傑分享,第一個突破是運用了神經網路的技術,原本還不確定是否會有效,沒想到實驗結果出來之後,對弈原始的版本竟然是 100% 的勝率,也讓團隊為之振奮。接著而來的第二個突破,則是價值網路的技術,其實當時的模擬,AlphaGo 如果上場比賽,勝率應該有七八成,可以算是世界第一了,但是 DeepMind 的目標遠高於此,所以持續擴充團隊,才有辦法做更多的研究,解決更多的問題。 
黃士傑也分享,其實在開發 AlphaGo 的過程中,每天就是訓練神經網路、測試、看勝率、觀察看看是不是有效,有很多點子和問題需要不斷的測試,像是深度學習的深度到底要幾層?用什麼架構?訓練的資料有沒有問題?當然,最終檢驗的還是 AlphaGo 的棋力有沒有變強。 
在觀察的過程中,也發現 AlphaGo 有 Overfitting 的問題,解決之後 AlphaGo 就變強了,再跟上一個版本對弈,勝率是 95%,這也是為什麼演講題目訂為 AlphaGo 的成功是深度學習與強化學習的勝利。  ...


既然 AlphaGo 還有問題,自然就要繼續研究下去,全面性的把問題解決掉,這個過程花了八個月,也找來生力軍 Karen Simonyan 加入團隊。其實解決的方法就是在深度學習和強化學習的技術上,把學習能力再加強。 
第一步先把原本 13 層的網路增加到 40 層也改成 ResNet第二步則是把 Policy Network 和 Value Network 結合成 Dual Network讓 AlphaGo 的直覺和判斷一起訓練第三步把 Training Pipelines 也加強除了人工智慧的學習能力黃士傑也把模仿棋循環劫等圍棋的問題也解決了再跟打敗李世乭的版本對弈可以讓三子不貼目還達到超過 50% 的勝率。... 
而以下則是黃士傑在演講簡報上整理的五點結論:
  1. AlphaGo 的成功,是深度學習與強化學習的勝利
  2. AlphaGo 從起始到結尾,證明了團結力量才會大
  3. AlphaGo 的發展,TPU 與硬體資源扮演非常重要的角色
  4. AlphaGo Zero 顯示了強化學習的巨大潛力
  5. 人工智慧在可見的未來,將成為人類重要的工具,與人類合作

沒有留言:

張貼留言