1/29/2016

Google 人工智慧 AlphaGo 打敗歐洲圍棋冠軍

因 2014 年被 Google 收購而加入 Google 的人工智慧公司 DeepMind 創辦人 Demis Hassabis 表示,圍棋的規則很簡單,雙方以黑、白子圍地吃子,以圍地的大小來區分勝負,雖然規則簡單,卻是個非常複雜的遊戲,它的棋子擺放位置有 10^170 種可能性,是西洋棋子的 10^100 倍,還多過全宇宙的原子數量。
Hassabis 說,圍棋的複雜度讓電腦無力招架,卻也讓人工智慧的研究人員們深深著迷。 
電腦先是在 1952 年克服了井字遊戲、在 1997 年拿下跳棋、IBM 的深藍電腦在1997 年擊敗西洋棋冠軍 Garry Kasparov、IBM 的 Watson 系統在 2011 年取得Jeopardy 益智競賽的冠軍,但在去年 10 月以前,電腦的圍棋能力都只與業餘高手相當。 
Hassabis 說明,傳統的人工智慧方法是建構一個涵蓋所有可能位置的搜尋樹,但這並不適用於圍棋,因此 Google 打造了 AlphaGo,它結合了進階的搜尋樹與深層神經網路,其中有一個策略神經網路 (policy network) 負責選出圍棋的下一步,另一個價值神經網路 (value network) 則負責預測贏家。 
Google 先以圍棋專家的 300 萬個棋步來訓練這些神經網路,一直到預測準確度達到 57%,可是這也只能讓 AlphaGo 的下棋能力與專業棋手差不多,於是 Google 進一步讓 AlphaGo 的神經網路彼此交戰,在展開數千盤對戰的同時利用強化學習(reinforcement learning) 進行調整。 
最後 Google 讓 AlphaGo 上了比賽桌,先是挑戰各大圍棋程式,在 500 盤對奕中只輸了 1 盤,接著在去年 10 月挑戰歐洲圍棋冠軍樊麾,取得五盤全勝的佳績。出生於中國的樊麾在 2013、2014 與 2015 年都是歐洲圍棋冠軍,樊麾說,他早就知道AlphaGo 是台電腦,如果沒人告訴他這件事,他會以為對手是個有點古怪卻厲害的真人。
基本上,文中描述的強化學習屬於動態規劃的應用。學術論文 D. Silver, et al., Mastering the game of Go with deep neural networks and tree search, Nature 529 (7587): 484–489. doi:10.1038/nature16961.

林亞慧Google 人工智慧打臉 FacebookAlphaGo 已能打敗專業圍棋選手TechNews 2016/1/28
這套系統的關鍵,就在減少原先在搜尋時所佔用的龐大空間,轉而變成較能掌握的事情。而為了要能達成這樣的效果,AlphaGo 結合最新的樹狀搜尋技術與兩種深度學習網路,其中,每一種網路都有非常多層涵蓋了百萬種像神經一般的連結。其一深度學習網路稱為「策略網路 (policy network)」,能夠預測下一步並縮小搜尋範圍,讓接下來的每一步都能朝致勝更邁進。另一個則是「評估網路 (value network)」,能減少在樹狀搜尋時的深度,評估贏家在每一個情況下最好的下法。 
AlphaGo 突破了以往的人工智慧系統,演算法又更貼近人類的思惟,Google 不使用 Facebook 研發人工智慧時所運用的蒙地卡羅樹狀搜尋 (MCTS),反而用了機器學習來引領 AlphaGo 的搜尋。透過上述的兩種機器學習網絡,AlphaGo 比其他系統更能抉擇出更好的下一步,引領自己在圍棋比賽中勝出。 
Google 在訓練 AlphaGo 時,先以人類專家下圍棋的 3,000 萬種步驟訓練「策略網絡」,直到此人工智慧系統能準確預測 57% 人類下棋的步驟。但 Google 也不以此滿足,不達贏過人類玩家的目的永不罷休。為了達到目的,Google 讓 AlphaGo 的「策略網絡」玩好幾千把的圍棋,並在這過程中習得自己發現新下棋策略的能力,再搭配強化學習的方式逐漸改進下棋的方式。最後,Google 更驕傲的表示,AlphaGo 目前已能打敗所有用樹狀搜尋所建立的人工智慧系統。 
更厲害的是,這個接受過訓練的「策略網絡」,還能反過來訓練 AlphaGo 中的「評估網絡」,讓它能評估所有圍棋中可能出現的局面,進而評估最後的贏家會是誰,顛覆了原本被認為不可能發生的事情。 
然而,要想達到這樣的結果必須要有非常強大的運算能力,所以 Google 團隊更運用了 Google 雲端平台,讓這些研究人工智慧與機器學習的學者能隨時彈性的運算、儲存以及取得網路容量。除此之外,有了運用數據曲線圖的數字運算新開放原始碼資料庫,就能允許研究學者在不同的 CPU 和 GPU 上,更有效的支配其學習演算法的運算方式。

沒有留言:

張貼留言