簡季婕說明,雖然原始資料量(raw data)越多越好,但真正關鍵的挑戰是蒐集到可用的資料,舉無人車針對路況做出反應的模型為例,一般正常路況的資料量多、好蒐集,但真正訓練模型做出反應的車禍資料,反而較難取得。因此,在數據的蒐集階段有兩項重點,一是要蒐集到足夠全面的資料(Variety),包括靜態、動態、不同環境的資料,二是要蒐集到不同複雜程度得資料(Complexity),無論是陰暗光線、雨水、被標註物件的數量或大小都會讓情境變複雜。
在蒐集足夠的資料後,下一個挑戰則是如何將龐雜的數據收斂為可用來訓練的資料。首先,必須要分類,大致可分為三類,根據蒐集到的影像,去判斷欲標註的物件是否完整、清楚,不完整或模糊的影像先歸一類;第二類,則是將背景不夠乾淨、有雜訊,或可能導致辨識錯誤的圖像篩選出來;第三,則是篩選後所剩下的清晰、乾淨、高解析度的資料,同時也是較適合拿來訓練模型的資料。
舉例來說,某品牌精華液擁有大量圖像資料,此時可依照上述步驟先將瓶身拍攝不完整或模糊的圖像篩選出來歸類,接著再將附有包裝紙、配飾、或人也入鏡的圖像資料篩選出並歸類,最後剩下的就是背景乾淨、只留精華液瓶罐的資料。簡季婕表示,模型可以透過第三類的資料學習物件特徵,再反過來用第二類甚至第一類的資料加深學習難度,來強化模型的辨識能力。
在數據整理與篩選的階段,若水也採取半自動化的方式讓數據清整更有效率。簡季婕表示,根據每個專案的需求,會使用不同的智慧工具來做快篩,包括物件追蹤(Object Tracking)、特徵分析(Feature Analysis)、人臉辨識(Face Recognition)等,逐步將不合適的資料篩除,從低品質資料篩到高品質資料的過程,也會有部分人力進場來做更精確判讀。
除了將數據分類,要取得高品質的標註資料也有三個步驟,包括精準的定義(Definition)、執行(Execution)、以及回饋(Feedback)。簡季婕說明,首先要精準定義出資料標註的原則,這時候領域知識(domain knowledge)就很重要;再來是根據定義去處理與標註數據,過程越精準穩定,相對的模型就會有較好表現;最後是即時的回饋,AI工程師將標註後的數據拿來訓練模型,訓練結果即時反饋給數據標註師,使其可以針對標註過程做調整,形成良性循環。
簡季婕也舉出實際應用的案例來說明。要訓練辨識鐵鏽的模型,首先要定義鐵鏽是什麼?鐵鏽的顏色、質地、形狀都需要專家來協助定義,才不會與光影、青苔和污漬搞混,否則將影響模型表現;定義完成後,將資料交由專業數據標註師處理,不經由AI工程師或工讀生來標記;在回饋的部份,針對模型表現的結果改善標記方式,進而提昇模型辨識的精準度。
沒有留言:
張貼留言