1/26/2019

Hidden Technical Debt in Machine Learning Systems (機器學習系統中隱藏的技術債務)

D. Sculley, Gary Holt, Daniel Golovin, Eugene Davydov, Todd Phillips, Dietmar Ebner, Vinay Chaudhary, Michael Young, Jean-Franc¸ois Crespo, Dan Dennison, Hidden Technical Debt in Machine Learning Systems, Proceedings of the 28th International Conference on Neural Information Processing Systems, 2015, Pages 2503-2511.



由上圖所示,機器學習程式 (ML code) 只佔機器學習系統中的一小部分。作者們使用軟體工程技術債務 (Technical Debt) 的概念,說明潛在大量的持續維護成本 (massive ongoing maintenance costs) 和解方,例如資料變化導致模型的錯誤等等。

潛在的挑戰和痛點也帶來新的機會,有不少企業便是針對其中的一部分提供相關的解方,也適合正在開發系統者一讀,以窺全貌。 

10 年砸 466 億、東部返鄉票僅增 304 張

文 嚴文廷,攝影 蘇威銘,設計 黃禹禛,共同採訪 陳麗婷、林雨佑,買錯車、施錯工,10 年砸 466 億、東部返鄉票僅增 304 張,報導者,2019.1.24 
決策連環錯
錯誤1:提高車速≠提高運量
錯誤2:雙軌化、電氣化優先順序錯置
錯誤3:延遲的第四代售票系統 
東部鐵路運輸真正需要投資的關鍵,不在列車,而在基礎建設。不願具名的台鐵內部官員直指,東部幹線無法加開班次,主要在於列車無法「暢通」行駛,「卡」在4大站的瓶頸點:
  1. 縱貫線樹林到七堵間,東西部幹線路線重疊易「堵車」
  2. 宜蘭線彎道多、車站設計不佳,無法待避讓快車超車
  3. 北迴線易遭遇「台鐵金雞母」貨運列車擋路
  4. 台東線僅有5個路段雙軌化,增加排班難度

參考之前的鐵路排班一文  

1/25/2019

宜鼎國際的智慧排程與數控技術

根據市場研究機構顧能(Gartner)去年的統計,專注生產工業用等級記憶體模組與儲存裝置的宜鼎,市佔率全球第一。 
從工控、航太、交通、博弈等,全球各領域直接往來客戶超過2700家的宜鼎,少量多樣、高度客製化,是其行業最重要關鍵能力。 
以記憶體模組廠最主要的表面黏著技術(SMT)產線為例,一般大量生產的同業,當新產品上線後,通常至少一個月都不輕易更換,但宜鼎每一條產線每月換線次數平均達500次。... 
宜鼎董事長簡川勝透露,為了在無法避免的頻繁換線中,創造更高生產效能與良率,宜鼎約三年前開始收集機台數據,進而運用人工智慧分析大數據,去年開發出「i發單」平台。 
自動判別最佳生產線
該平台最厲害之處,就是智慧排程。除了能自動判別什麼樣的產品最適合哪一條產線生產,更進一步做到有效預測,把客戶預測失準的影響降至最低。 
宜鼎品保處經理陳怡全透露,自「i發單」上線後,平均換線時間從過往約30分鐘,到現在只要20分鐘,宜蘭廠因為設備更新,「只要15分鐘。」
作業管理的四大性能指標:品質、彈性、價格、速度天下雜誌 665 期描述最新的發展,近幾年,美德日因為技術進步,報價竟然低於台灣,所以彈性和智慧製造變得很重要。 

1/24/2019

精準施肥、驅蟲全年無休 小農一人都搞定

黃亞琪,精準施肥、驅蟲全年無休 小農一人都搞定,今周刊,2019-01-23
玩味的是,泥土和空氣中隱藏的「詭譎迷離」,是肉眼看不見的。然而,陳健章堅信著古老智慧,也倚重著科技解決問題的威力。「智慧化還是要流汗的。」他解釋,這裡插了約一百支的感應器,從泥土下的溫度、地底鑽的蟲子,到土地上的溼度、酸鹼值,都是被蒐集的數據;空氣中飄散的粉塵、風向、紅外線等變數,也不放過。...

1/20/2019

Python 機器學習

幾年前教大四資料探勘使用 R

受到 AlphaGo 的影響注意到 TensorFlow 強大的功能所以去年研究所的機器學習改用 Python任教的過程中發現學生的學習曲線較高所以今年改用 Keras

機器學習分成問題數學和程式有的課程只教一個面向。在新版的資料探勘課程中依然採用三者合一的教學上課影片和上課資料 (作業檔) 在此

如何在深淺度之間取得平衡花了些心思,參考的資料包括一堆教科書、線上課程、論文、新聞和產業工作。

1/19/2019

RelaJet 讓聽障者聽見想聽的聲音

徐知誼,利用 AI 進行多人聲分離,RelaJet 讓聽障者聽見想聽的聲音,TechNews,2019/1/2
對於聽障者來說,最主要面臨的問題有二。第一是助聽器價格高昂,以全球六大品牌為例,平均價格約在 6 萬台幣左右,高階的甚至要 15 萬,負擔相當沉重。第二,許多傳統助聽器的效果不夠好,一旦周遭環境音量太大聲,想清楚聽見談話者講話難度就會相當高。本身也是聽障者的陳柏儒(Blue Chen)為了解決這些困境,集合一群專精 AI 演算法的團隊,創立 RelaJet 洞見未來,要以「多人聲分離」引擎,協助聽障者擁有更好的聆聽體驗。

1/17/2019

台積電的智慧製造

熊毅晰,地表最接近工業 4.0!台積電兩大獨門武器首度公開,天下雜誌,665 期,2019-01-15 
(台積電晶圓廠營運資深副總經理) 王建光解釋,半導體製程是一門高度複雜的工藝,有上千個製程步驟,每道製程都必須精準控制,每個工廠都有數千台機台,每個機台一天可收集數百萬到數千萬筆數據。 
他說,這些資料是晶圓製造過程中的所有細節,一定得充分收集、掌握,才有機會優化製程參數,成為提升良率的基礎。 
清華大學工業工程與工程管理學系講座教授簡禎富也指出,台積電的每一片晶圓都有百萬個感測點的數據、每座晶圓廠都有成千上萬台機台設備,但對應的製程工程師,卻可能只有不到一千位,要分析如此海量的資料,已遠超人力所及。...

1/15/2019

零售存貨能見度 (retail inventory visibility)

因為竊盜或顧客亂放等等因素,零售業中的存貨紀錄常常不正確,導致某些品項缺貨,卻永遠不知道而無法補貨,稱為凍結 (freezing)。DeHoratius 等教授,使用貝斯庫存記錄 (Bayesian inventory record),以解決上述問題,而得到最佳論文獎。

Nicole DeHoratius, Adam J. Mersereau, and Linus Schrage, Retail Inventory Management When Records Are Inaccurate, Manufacturing and Service Operations Management, 10 (2), spring 2008, 257-277. (Winner, 2009 MSOM Best Paper Award)

另外一種有趣的方法是利用自動無人機  (autonomous drones) 和影像辨識,統計存貨量根據 Pensa Systems 的說明,其系統可以達到 98+% accuracy for out-of-stock detection

1/14/2019

富盈數據的自動化廣告業務

有別於一般數位廣告賣網站版位、賣受眾,富盈數據透過語意分析,將代管的1,600 個網站內容進行貼標,每一個網頁,都會依據其內容被標上不同的標籤,也就是說,每一條網址,都會有屬於自己的 tag。 
因此,以「電腦王阿達」的網站為例,電腦王阿達不會被籠統地歸類為 3C 類廣告投遞標的,而是每一篇文章根據不同主題,都被貼上不同標籤,當客戶要投放廣告時,他挑選的是內容跟 3C 相關的網頁而非網站,廣告自然就能出現在與網頁內容高度相關的位置。 
「以前廣告評估三件事:曝光、點擊、瀏覽,但這三個都不是關鍵,」陳顯立說,「因為廣告、行銷的目的是成效,所以根本不是曝光、點擊跟瀏覽,而是『自然且有興趣、有意願的瀏覽』。」... 
在陳顯立看來,廣告業運用的機器學習技術,永遠無法訓練出一勞永逸的模式,「因為生活型態會改變、年齡改變、工作會改變,只要這些改變了,行為就通通都變了,所以人家說 AI、機器學習會找到一個 pattern,然後就可以一直用,沒有這回事,永遠找不到,所以每天都是新的挑戰。」 
但挑戰的另一面,也是富盈的最大優勢,「壞處是沒有 pattern,pattern 要不斷建立,但好處就是,你無法離開我,這很像吃毒品,有創投就說我們的商模是一旦用了就離不開了。」

1/10/2019

AI 醫療大未來

這幾年AI 捲土重來,在許多產業掀起革命,也有不少科技業者嘗試跨入醫療領域。就醫療而言,應用AI 早已經不是「想不想」的問題,而是非做不可,也不能再等了。 
台灣已經邁入高齡社會,隨著人口老化,我們需要投入的醫療資源越來越多;加上少子化影響,人力資源短缺,醫護人員得照顧的病人越來越多,每個人能被分配到的資源變得稀少又難得,這些問題該怎麼解決? 
如果能夠徹底運用AI 的偵測、預測與預防的技術,就有機會解決長照及其他醫療的重大問題。AI 已成為醫療必要的基礎建設,投資AI 就是投資自己和子子孫孫健康的未來。 
這本書將帶你認識醫療AI和你有什麼關係?了解最新的醫療AI科技,是你未來健康的保障。 
本書特色
1.    全台第一本討論醫療AI趨勢專書,不同一般產業分析觀點,而是與讀者分享來自醫療第一線的觀察,實屬難得。 
2.    作者李友專同時擁有醫學與資訊雙項專業,20~30年前即投入醫療AI臨床研究與應用,是臺灣醫療AI先驅,經常奔走國際推廣臺灣經驗,也促成多項國際合作並屢獲殊榮肯定,其影響力不言可喻。 
3.    每個章節可獨立成篇閱讀,對於不熟悉醫療AI領域的一般讀者,不會有閱讀壓力。文末的「醫療AI討論區」專欄也提出更多個人觀點與觀察。

1/04/2019

嬰幼兒的睡覺問題

女兒剛出生時, 睡前有固定的程序,例如喝牛奶、刷牙齦、講故事,然後在搖椅上抱著睡著,再放到嬰兒床。但是,半夜醒來,就想要和大人玩,不想睡。 弄得我們極為疲倦。

小兒科醫師介紹我們看一本書, 基本的觀念就是人會半夜醒來,所以要學會如何自己入睡。

訓練方法如下, 做完睡覺前的儀式後, 告訴小孩, 爸爸媽媽愛你,要好好的自己睡覺, 然後,把小孩子放在嬰兒床內。 父母走出來,拿一個計時器, 第一次讓小孩哭五分鐘; 然後,進去安慰小孩子,只說爸爸媽媽愛妳,乖乖睡, 就出來。 第二次延長為10分鐘,依此類推。 記住,小孩子衣服哭濕了,也不要換。

女兒第一天晚上 哭了45分鐘, 第二天5分鐘, 第三天唉了一聲。

 大人有睡飽 ,白天反而更有精神陪小孩子玩。書中也詳細說明各種可能狀況,例如會不會產生心裡的陰影、脫腸等等。

兒子也是用這個方法培養的,所以出生後,沒有和我們睡過一天。

如果父母擔心,可以買一個聲音監視器,了解小孩在隔壁間的動靜。

兒子小時候也是不坐嬰兒推車的, 訓練方法如上, 第一天哭兩圈,第2天哭一圈,第三天叫一聲。

如果家中有長輩,要跟他們溝通,動之以情,說之以理, 甚至會影響到上班的行車安全。某飛行員因為晚上帶小孩,沒有睡好,結果隔天摔飛機。如果真的沒有辦法,可能要找個度假村住1個禮拜。

1/03/2019

文科生也看得懂的資料科學

沈佩誼譯文科生也看得懂的資料科學碁峰2018
Annalyn Ng and Kenneth Soo  , Numsense! Data Science for the Layman: No Math Added, 2017.
雖然資料科學越來越常被用來改善工作場域的種種決策,但對普羅大眾來說,這仍然是個神祕難懂的領域。本書避開艱深的數學與生澀的術語,以直觀的例子來說明各演算法功能與特色,例如,用預測犯罪事件的例子來解釋隨機森林,用分群演算法來分析各類電影迷的人格特質等,本書所選用的例子能夠幫助讀者明確理解各演算法及實際應用,即使您不曾接觸過資料科學,也能藉由本書掌握基本概念。
第 12 章的吃角子老虎機,看不出來 Epsilon-Decreasing 策略是何意,可以參考作者的英文文章,代表探索機率 Epsilon 逐漸下降。