1/15/2018

大數據的傲慢與偏見 (Weapons of Math Destruction)




Cathy O'Neil, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy, 2016

許瑞宋譯,大數據的傲慢與偏見:一個「圈內數學家」對演算法霸權的警告與揭發,大寫出版,2017
第1章 數學炸彈元件:什麼是模型?
第2章 金融業震撼:一個量化分析師的幻滅之旅
第3章 軍備競賽:大學入學問題
第4章 宣傳機器:網路廣告
第5章 殃及池魚:大數據時代的執法問題
第6章 資格不符的第一關:艱難的求職者
第7章 隱形焦慮:恐慌的工作者
第8章 連帶傷害:當個人信用出了問題
第9章 沒有安全區:你想買保險嗎?
第10章 被瞄準的公民:現代人的科技生活
(71 頁) 如果《美國新聞》的大學排名不怎麼成功,那是沒問題的。問題是它非常成功,很快便建立了形同國家標準的地位。它一直緊緊綁住美國的教育體系,替大學管理層和學生訂出了一份嚴格的待辦事項清單。《美國新聞》大學排名的應用規模很大,製造出一種幾乎無止境的有害回饋環路。雖然不像許多其他模型那麼不透明,它仍是貨真價實的數學毀滅性武器。 
有些大學的管理人員為了推高學校的排名,不惜不擇手段。貝勒大學(Baylor University)出錢讓它所收的新生重考 SAT,希望可以藉此提高學生的SAT分數,進而推高貝勒大學的排名。精英小型大學,包括賓州的巴克內爾大學(Bucknell University)和加州的克萊蒙特麥肯納學院(Claremont McKenna College),都曾提供假數據給《美國新聞》,誇大了它們的新生SAT分數。紐約的愛納學院(Iona College)2011年承認,其員工捏造了幾乎每一方面的數據,包括SAT分數、錄取率、畢業率、新生續讀率、師生比率,以及校友捐款數據。這種伎倆是有用的,至少是暫時有效。《美國新聞》估計,拜假數據所賜,愛納學院在美國東北區域型大學中的排名從第50位升至第30位。 
(77 頁) 現在如果他們將教育成本納入排名公式裡,則產生的排名可能會出現一些「奇怪」的情況一些低成本的大學可能突然晉身頂尖學府之列。... 起初把公認的頂尖學府排在最前面,是安全得多的做法。這些大學的收費當然高昂,但或許這正是卓越教育的代價(註 1)
(79 頁) 他發現,那家沙烏地大學聯繫了論文常有人引用的一批數學家,開出年薪 7.2 萬美元的條件,聘請他們擔任兼任教授(註 2)
(131 頁) 研究者捏造的履歷表特別考慮種族因素 ... 研究者發現,白人姓名履歷表獲得雇主回應的次數比黑人姓名者多 50%。(註 3)
機器學習中有一些方法是利用特徵 (feature) 當成自變數以預測有興趣的未知量,例如利用之前工作時間長度或態度以預測未來 (快速) 離職的可能性。這些由人決定的自變數便可能存在偏見。

大學排名是利用替代指標,例如入學成績、學術出版品等等。 如何衡量高引用學者、甚至諾貝爾獎得主對大學部學生學習成效的影響 (註 4)?是否有因果關係? 或者如書中所言,大興土木的運動設施,除了健身外, 對債台高築的學生有何具體幫助?

(註 1) 之前的 blog (1, 2)

(註 2) 我也聽過其他學校類似的手法, 以便在短期內提高學校的排名, 然後做為招生宣傳之用。

(註 3) Marianne Bertrand and Sendhil Mullainathan, Are Emily and Greg More Employable than Lakisha and Jamal? A Field Experiment on Labor Market Discrimination, NBER Working Paper No. 9873, Issued in July 2003.

(註 4) 為了吸引這些學者任教,有不少人是不用上課的 

1 則留言:


  1. 这个想法是奥尼尔思考为什么算法如此有害的核心。从理论上讲,数学是中性的– 2加2等于4,无论有人希望答案是什么。但是在实践中,可以基于强大的兴趣来制定和调整数学算法。
    https://makingpdf.com/weapons-of-math-destruction-pdf/

    回覆刪除