1/16/2017

KKBOX 的個人化音樂推薦系統

顏理謙、何佩珊,KKBOX 再優化!耗時三年,打造個人化音樂推薦系統,數位時代, 2016.10.12
她表示,目前 KKBOX 曲庫中共有 3 千萬首歌曲,為了提升使用者體驗,從 2013年開始,KKBOX 的資料科學團隊和台大、中研院和政大等學術單位密切合作,持續優化演算法。政大資訊科學系教授蔡銘峰指出,這次推出的演算法採用最新深度學習技術,並基於深度學習的基礎提出新的表示式學習方法,讓用戶可以更容易接觸到自己感興趣的歌曲、歌手、專輯或曲風。
蔡銘峰舉例,過去傳統作法,可能是去記下一首歌的曲名、歌手名、音樂類型等標籤,但現在的作法則是要讓資料自己去定義出特徵。就好像 Google 開發機器人在 YouTube 的影音裡面去定義出貓是什麼樣子一樣。「所以重點是資料量要夠大,才能 Drive 出來。」他也補充,過去只能在歌曲增加關聯性,但現在則是可以把更多的使用者因素也加進來分析。 
給消費者驚喜,創造音樂平台的價值 
而實際上,林華表示,在測試時,他們透過「消費者是否點下推薦音樂」、「有沒有聽完推薦音樂」,和「聽推薦音樂的數量是否增加」這三點來判斷,發現新的演算法確實比過去更精準、更有效。 
林華也指出,當消費者總是只聽那幾首歌時,KKBOX 的價值就難以被凸顯,但若能經由推薦機制,讓消費者因為聽到喜歡卻從來沒注意過的歌曲而感到驚喜時,消費者就會更喜歡 KKBOX。
顏理謙,台灣最大串流音樂服務的大腦:KKBOX 研究中心,數位時代,2016.12.29
今年 10 月,KKBOX 發表了一套與台大、政大、中研院資料科學專家合作開發的演算法,數據顯示,新演算法上線後,用戶開啟 KKBOX 後的跳出率減少 25%,App 的點擊互動率成長近四成,最驚奇的是,用戶透過新版的「發現」功能,聽到的歌曲有七成以上是一周前沒聽過的新歌。而這套演算法的幕後功臣,就是 KKBOX 研究中心 (Research Develop Center, RDC)。 
KKBOX 研究中心成立於四年前,分為「機器學習 (Machine Learning)」和「資料科學 (Data Science)」兩大組別,目前研究中心成員約十多人,兩個組別人數大約各占一半。 
機器學習組的工作內容是運用演算法提升產品功能,同時也和學界密切合作,從實驗室的前期探索中找尋產品化的機會。而資料科學組則是負責收集和分析大量用戶資料,比方說用戶的使用頻次、付費狀況、興趣和喜灣的藝人等,並以此預測用戶未來的行為、提供更個人化的服務。 
平時,這兩個組別和公司各個部門都有緊密互動。以資料科學組來說,業務性質就會和營運策略規劃部 (Business Insights team)、行銷、商業開發部門有關,透過資料科學組提供的數據,其他部門可以知道過去操作的成效或預測未來行銷成績。機器學習組則和產品功能最接近,產品經理、工程師、編輯和外部專家都是合作對象。 
兩個團隊各司其職,但彼此也相輔相成。「機器學習背後其實有非常多的 factor (因素),可是到底哪一些 factor 真的對我們實際做出來的功能、使用者用起來是有感的?這些都需要資料科學來協助。」負責帶領研究中心的產品開發中心副總經理林華說。 
她指出,數位產品的優點就是可以追蹤使用者的每一個步驟。一般來說,使用者聆聽音樂時,可分為「主動式聽歌」(lean forward) 和「被動式聽歌」(lean back) 兩種行為模式。前者是使用者很清楚自己現在要找哪一個歌手、哪一首歌曲,而後者則是跟著編輯挑選的歌單加上系統推薦的音樂,或是開啟電台模式,讓系統自動推送歌曲。 
「主動和消極被動,其實意圖差很多。同樣是聽過一首歌,這首歌是你自己找來反覆聽的,還是你跟著 (歌單) 聽過,沒有對這首歌產生任何互動?我們在做個人化推薦的時候,很多訊號都會挖出來看。」林華說,他們會透過數據觀察用戶對音樂的意圖,並跟著優化演算法,而那些「用戶雲淡風輕跟著聽過去、毫無感覺而且只聽過一次兩次的歌」,就會被排在比較後面。也就是說,用戶的互動行為越多,KKBOX 就會越了解你。 
林華表示,目前在 KKBOX 用戶中,主動式聽歌和被動式聽歌這兩種類型的用戶比例難以量化比較,不過她認為,當推薦系統做得越來越好時,被動式聽歌的比例應該會逐漸增加。「我們當然是希望使用者越省力越好!」她笑說。 
讓用戶越聽越多元 
新版演算法專案是在今年春天正式啟動,不過在這之前,研究中心早已做過多次測試和優化。「其實我們在舊的首頁就已經偷偷先行 AB test 了。」研究中心機器學習組經理陳怡安說。 
她指出,過去,KKBOX的首頁是採用規則導向 (Rule-Based) 推薦,先掌握使用者喜歡的歌手和曲風後,再以比對方式推薦歌曲給使用者。規則導向演算法雖然簡單直接且容易解釋,但是也有極限。「因為每個人喜歡的都不一樣,所以你可能要為這群人建立很多規則,但是在整體 CTR (點閱率) 的表現上,很難去做系統性的優化。」 
但如果是透過機器學習,效能反而更高。「今天有 CTR 這個目標,我就用點擊紀錄把這些資訊萃取出來。這些點擊紀錄代表我要追尋的目標,所以這些人和物的特質就變成 feature。透過機器學習演算法,可以把這些人和物的 feature 加以演算,排在前面。」不過相對來說,機器學習也較為繁瑣和複雜,需要花費更多心力。 
新版演算法推出已快三個月,從數據看來,研究中心的苦心沒有白費。林華表示,明年1月還會推出「tell us what you like」的功能,當新用戶進到 KKBOX,可以先挑選幾種自己喜歡的曲風,讓系統自動配對該類型的熱門歌手,就像是跟KKBOX 做「自我介紹」一樣。

沒有留言:

張貼留言