2/14/2016

政府大數據應用初步成果

近日科技部針對教育、防疫醫療、災害預警與犯罪防治領域,提出5項大資料應用的階段性研究成果。其中,在預防犯罪領域,中正大學犯罪防治中心和新北市警察局合作,利用警勤區刑案資料繪製報案斑點圖,再經由大資料分析技術,分析犯罪成長曲線,希望能進一步透過資料探勘和分析技術找出預測模型,從過去已發生的犯罪熱點圖,轉換成未來的犯罪機會圖,更有效預防犯罪。 
其實這樣的做法在國外早有實際成果案例,如美國洛杉磯警察局導入警政預測分析雲端服務,將過去 10 年的各類型犯罪資料結合演算法,建構犯罪行為模型,能精準定位地圖上各區塊最有可能發生犯罪的地點和時間,並讓警方加強特定區域巡邏。導入預測服務後該地區犯罪率下降2成,甚至有其中一個地區出現 50 年來第一次 24 小時內無犯罪紀錄。 
這也是中正大學犯罪防治中心接下來要進行的方向,中央大學教授兼副校長及犯罪研究中心主任楊士隆表示,除了第一階段和新北市警察局合作,第二階段則進一步將司法院的刑事判決紀錄、法務部資訊處及法務部矯治署提供的獄政資料庫整合,找出法官、檢察官、被害人自身、被告及原告之間的關聯性,進而得出影響判決的關鍵因子,如被告手段是否兇殘、被害人的性別、國籍、年齡,及檢察官是否具體求刑,都是主要的影響關鍵。 
這麼做的目的之一就是要提供法官一個客觀的量測判決參考依據,讓法官不會侷限於個人的經驗,也能參考到整體的判決結果分布。楊士隆表示,從犯罪動機與法官判死刑或無期徒刑之間關聯性的資料分析結果可以看出,若犯罪動機為財產糾紛,包括保險及債務問題,被判死刑的機率是無期徒刑的 2 倍以上,但若犯罪動機是感情糾紛,則有超過6成判無期徒刑,不到 4 成判死刑,而沒有犯罪動機的,則有 9 成以上被判無期徒刑。 
第三階段則要用資料探勘技術,依照受刑人特性,演算出受刑人的高、中、低再犯機率,建構出再犯風險評估模型,再分析獄政資料庫中,存在可能導致犯罪類型的家庭、環境、性格等因素,進而找出某段時距中發生再犯的機率,及各種犯罪成因的序列樣態。 
目前,他們也針對毒品危害防制領域,透過獄政組與法務部資訊處、矯正署教化輔導組、矯正醫療組及毒癮戒治科等單位的資料整合,找出可能的犯罪構成要素,調整受刑人輔導方向,並根據再犯機率等因素,建立假釋審查的評量標準,提供假釋委員參考依據,做出有效判斷。 
除了用來預防犯罪,另一個政府大資料應用是在防疫醫療領域,元智大學與衛福部、臺灣颱風洪水研究中心,以及環保署合作,將醫療健保就診資料、環境污染資訊及氣候等異質資料結合,進行醫學健康大資料分析。 
元智大學資管系教授詹前隆表示,他們先建立底層的醫療、環境異質大數據分析平臺,以及動態醫療趨勢分析預測模型,運用資料分析、視覺化分析及趨勢事件分析等方式,找出其關聯樣態,再開發醫療健康創新應用,如個人化健康事件及風險事件預測通報。 
目前研究成果包括分析氣候、空汙因子對呼吸道疾病的影響,並找出關鍵模型與規則,來預防呼吸道疾病。另外,過去的研究認為低溫容易造成 60 位老人發生顱內出血,不過他們從目前的大資料分析研究中發現,45 歲以上的中年人發生顱內出血的機率,就會受到氣候關係影響。 
此外,由於花東地區的發生機率是臺北的3倍以上,因此除了氣候與環境,醫療可近性也是可能的影響因素。其他進行中的研究還包括心肌梗塞、紅斑性狼瘡、頭部創傷、眼中風、創傷骨折、乳癌、再入院事件及慢性肺阻塞等研究。 
詹前隆也說,他們採用大資料運算平臺 Hadoop 的分散式檔案系統 HDFS,再搭配分散式資料倉儲系統 Hive,以及採用記憶體式運算的即時分析技術 Impala,並利用 R Studio 來做線上資料分析及探勘。 
而另一方面,臺灣大學醫學院教授郭育良也以國人健康為主題,結合衛福部的健康資料及環保署的環境資料,研究空氣汙染暴露對人體健康的影響性,並建立評估指標用來預測未來的影響可能。 
在教育領域的大資料應用上,中央大學資工系特聘教授楊鎮華以教育雲、教育大市集及磨課師線上學習平臺 (MOOCs) 作為研究對象,分析其資源使用情形,並提供教材相似度分析工具與服務、資源使用率及教師使用行為分析。 
楊鎮華進一步解釋資料處理流程,他們先用 Scrapy 網頁爬蟲工具來蒐集資料,再分別用 Jieba/CKIP 及 Python 做中文分詞和雜訊過濾,資料前處理後儲存到資料庫管理系統Cassandra,再進行資料萃取,包括資料萃取模組、資料庫導覽模組及資料處理模組,並使用 SparkSQL 資料查詢套件及機器學習套件 MLlib。 
楊鎮華表示,這些教材資料與使用者行為資料,可以透過資料探勘、機器學習技術,找出未知關聯性和隱藏模式,進行預測分析,進而幫助學校、教師或學生使用更好的教材資源與服務。 
而災害防治方面,國家災害防救科技中心副主任周學政表示,他們計畫建立社群網路災情綜整平臺,擷取社群網路上的災情相關資訊擷取,繪製成地理資訊,之後則計畫結合國家災害防救科技中心的災害防救資料,來制定社群災害防救資料標準,及自動化資訊分析技術。

沒有留言:

張貼留言