2/18/2017

博客來網路書店銷售資料的分析

陳昇瑋博客來大數據啟示錄經濟日報2017-02-16 
為期兩年的匿名訂單資料,可以玩出什麼把戲呢?資料分析可分為四個層次,描述、解釋、預測及最佳化,因最佳化需要涉入企業流程,在有限的時間內,我們做了三個層次的分析-從描述到解釋,再從解釋到預測。
描述性分析指的是利用統計及資料視覺化將事實呈現出來,幫助觀看者正確評估情勢;其中,一個重要但常被忽略的用途是,將資料中的隱性資訊(其無法從原始資料中判讀)呈現出來。例如中文書籍有 800 個分類,例如成功法書籍分為自我成長、致富及生涯規劃等類別。 
通常的認知是某族群的讀者偏好成功法書籍,但若將資料做適當處理,可以發現其實只有25歲以下的讀者偏好生涯規劃書籍,30 歲以上讀者就傾向買致富書籍。我們有許多有趣的觀察,例如夜貓子比晨型人更傾向買同性愛小說;投資理財書籍讀者買書時也精打細算,因此訂單金額較小;以及年收入 70 萬以上的家庭購買外遇/離婚書籍的機率大增等等。雖然只是描述分析,但因資料做過妥善處理,可以呈現出傳統商業智慧工具無法告訴你的資訊。 
在解釋性分析中,我們利用商品屬性及書名關鍵字來解釋書籍銷售量,例如有沒有書評連結,作者及書籍花多少功夫做簡介、有沒有名人或專家推薦等屬性。分析結果首先證明一些直覺猜測,例如,內頁預覽對於飲食及旅遊書籍銷量影響力顯著;是否有名人推薦對各類書籍銷量皆有影響力,但權威人士的推薦對自然科普書籍特別重要,而親子教養書籍的讀者對於感動、驚喜、觸動、分享等詞彙特別有共鳴。有趣的是,驚嘆號(!)若使用在旅遊書籍的書名及簡介中,與銷量有顯著的正相關,似乎驚嘆號可讓讀者更相信某個景點真的很好玩。 
另一方面,書名下得好不好,當然也會影響書籍的銷量。例如年輕、醫師、神奇、日本、改善等詞用在醫療保健書名與銷量有正相關,但養生這詞反而與銷量有負相關。對心理勵志書籍來說,練習、力量、自己是好的詞,但智慧並不是,結果並不直覺,但耐人尋味。有趣的是,同一個詞在不同分類可能有相反的作用,例如,輕鬆在商業理財是好詞,在語言學習不是;世界在人文史地是好詞,在旅遊書籍並不是。 
在預測性分析中,我們利用書籍特徵、書名關鍵字及上市前的市場狀況來發展暢銷書預測模型,文學小說暢銷書的預測準確度可以接近八成。也就是說,在書籍上架的那一刻,我們有八成的信心可以猜到哪些書會是暢銷書。預期若加入文本(書籍內文)的資料,暢銷書的預測模型可以再有顯著的改善。
投影片:第 70 頁開始

沒有留言:

張貼留言