這是一本介紹性的書,透過許多實例的說明,瞭解到應用大數據過程中的各個面向。如果沒有接觸過相關的資訊,這是一本有趣的入門書。可以參考書中的延伸閱讀以瞭解進一步的資訊。
在第 4 章相關性中,確認兩事件間的因果關係必須透過 (控制組和對照組) 實驗,有時候很困難;所以作者強調不應再拘泥於「為何如此」的因果關係,而是注意「正是如此」的相關性,例如亞馬遜 (Amazon.com) 的書籍推薦。但是,應用此觀念時要小心,例如書中 Target 預測顧客未婚懷孕的例子,懷孕和購物行為的產生或改變是有因果關係的;同樣的道理,地下管道的電纜因年代久遠而起火燃燒、導致人孔蓋爆飛也是有因果關係的 (註 2)。所以運用大數據時,除了專業技術外,也需要領域知識以瞭解可能的問題所在;Nate Silver 在其書 The Signal and the Noise 舉了一個有趣的例子,冰淇淋和森林火災有相關 (都發生在暑期),卻沒有因果關係;如果沒有這些基本的邏輯概念或領域知識,可能會得到極為錯誤的結論,例如推論買冰淇淋後想放火燒森林。
書商的介紹
汽車烤漆的顏色能告訴你,這輛二手車的故障率高低嗎?
市政府要怎樣清查,才能迅速找出有致命危險的人孔蓋?
從谷歌的搜尋字眼,怎麼預測流感疫情的蔓延?
要回答這些問題,關鍵就在於巨量資料(俗稱大數據)。
「巨量資料分析」是一門新興科技,能夠解讀和預測無數的現象,包括預測機票的價格、好萊塢新片的票房、你家裡的青少年是否未婚懷孕!也能協助診斷早產兒的健康情況,探查收入高低與幸福快樂的相關程度,幫忙規劃快遞的送貨路線、電動車的充電站應該設置在哪裡,還能用來發展自動導航的無人駕駛汽車、以及「從駕駛人的臀部形態判斷是否為車主」的防盜系統,也能夠快速進行多種語文的互譯……
兩位最頂尖的大數據專家,真正掌握到巨量資料思維的精髓,在這本書裡,清晰曉暢的解釋了巨量資料是什麼,它將如何改變我們的生活,對經濟、社會和科學會帶來什麼影響,我們又能夠做些什麼,趕搭上這波新潮流,同時也懂得保護自己,避免個人資料和隱私受到侵害。(註 1) 使用 Google 搜尋,便可以發現 Big Data 有多種中譯。
(註 2) Cynthia Rudin, et al., Machine Learning for the New York City Power Grid. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No 2. February 2012.
沒有留言:
張貼留言