透過機器學習預測「電信業」顧客流失率 - 臺灣行銷研究

文章推薦指數: 80 %
投票人數:10人

透過機器學習預測「電信業」顧客流失率 - 基礎概況分析(附Python程式碼) ... 接著,我們即從「顧客流失」的角度入手,以敘述性統計、模型預測等方法,了解顧客的行為 ... Skiptocontent透過機器學習預測「電信業」顧客流失率 - 基礎概況分析(附Python程式碼)情境相信各位讀者還記得2018年5月,某電信推出行動網路吃到飽的專案,綁約30個月,每月只要499元;由於申辦期間僅有七天,引起台灣民眾的申辦的熱潮,我們俗稱「499之亂」。

如果對499之亂的讀者有興趣想更進一步瞭解可以參考wiki的解釋。

電信行業有別於其他產業,特性包含公用性、資本密集度高、自然獨佔性。

近幾年各大電信行為了爭取顧客,因此努力在服務產品上做出差異化;然而電信業能提供的服務大同小異,加上市場趨近飽和的情況下,難免流於削價競爭。

基於上面的這種情況,又可以如何對電信行業提出策略的改變方針呢?美國著名管理學家、企業經營策略和競爭力權威麥克‧波特(MichaelE.Porter)曾於1996年,在哈佛商業評論(HBR)上發表了一篇文章《策略是什麼?(WhatIsStrategy?)》,說明「經營策略」是「一家公司只有在建立一個它可以維持的不同之處時才能超越競爭對手」,並以宜家的成功案例來闡述不同競爭策略的重要性。

簡言之,能否實行差異化策略對於各行業來說儼然成為企業競爭成敗之關鍵因素。

「Acompanycanoutperformrivalsonlyifitcanestablishadifferentthatitcanpreserve」在本次案例中,我們根據哈佛商業評論“TheValueofKeepingtheRightCustomers”中所提到:「開發一個新顧客的成本是留住一個顧客的25倍,而當顧客保留率上升5%,就可以提升25%-95%的利潤。

」的觀點著手整個資料分析的思考流程。

接著,我們即從「顧客流失」的角度入手,以敘述性統計、模型預測等方法,了解顧客的行為特徵,同時預測顧客流失狀況,找出重點關鍵因素,並事先防止顧客可能之流失行為。

模型建立步驟圖1為我們的模型建立步驟,我們會根據這個模式依序進行資料處理與建模,本文首先會介紹如何針對電信業之者客戶資料做資料前處理,讓我們接著看下去吧! 圖1模型建立步驟資料前處理在建立模型前我們先進行資料前處理,以為後續分析建立基礎。

原始資料原始數據包含7,043個客戶和21項變數,其內容大致可分為兩種:特徵變數和目標變數;其中特徵變數又可以分成人口統計變數、行為變項。

目標變數則是我們最關心的-客戶最後有沒有流失。

原始資料如圖2,詳細的資料型態從圖3至圖5:圖2原始資料模樣圖3人口統計變數圖4行為變數中「服務性質」相關的變數圖5行為變數中「合約性質」相關的變數在大致了解資料型態後,我們就可以開始看資料之間的關係,同時,這邊也附上Python的程式碼供大家參考,連結將放置於底下。

本文章資料與程式碼可見本處。

敘述性統計以下為資料集的基本情況:關鍵變數「是否流失(Churn)」,以虛擬變數呈現,流失的客戶佔樣本資料26.6%,未流失則佔比73.4%,如圖6。

圖6客戶流失率占比2.在性別變數上,男性為50.5%,女性為49.5%,如圖7。

圖7性別占比3.年齡變數上,以虛擬變數表示是否為年長者(≥65歲),佔總樣本之16.2%,如圖8。

圖8老年人口占比4.在客戶停留月數上,有非常極端的分配(<6個月或是>65個月),如圖9。

圖9客戶停留月數占比5.在合約時間上分為三類,月份合約、一年合約與兩年合約,分別佔比(這裡我們沒算,但有分開流不流失的比例),如圖10。

圖10合約類型與客戶流失比率分布6.合約類型(Contract)與客戶停留月數(Tenure)之間存在相關性,月份合約大多有較少的停留月數,而兩年和月有較長的停留月數,如圖11。

圖11合約長短與停留月數之關係探索性資料分析另外,我們也計算出所有變數與關鍵變數「流失率(Churn)」的相關係數,篩選最有可能與流失率產生因果關係之變數。

顧客待在同一間公司的時間,我們用盒鬚圖的方式去看,可以看到平均月數和四分位數,會發現沒有流失的顧客在同一間電信業待的平均時間會比較久;所以可以推出基本上一位顧客決定要離開這間電信業時,平均約一年會下決定。

圖12顧客待在同一間公司的時間與客戶流失率分配2.合約時間長,這邊有分月、一年制跟兩年制,會發現流失的顧客當中,合約通常都是以月為單位的。

圖13合約時間長與客戶流失率分配3.在年齡變數上,流失顧客中年輕人口是老年人口的兩倍。

圖14年齡與客戶流失率分配4.從費用的角度來看,流失的顧客通常月費比較高,可能與合約是以月為單位有關係。

圖15月費與客戶流失率分配5.最後在總費用的部分,大部分的顧客總費用會落在0–2000,這段費用區間又以會流失的顧客比較多。

圖16總費用與客戶流失率分配在本次的探索性資料分析中,我們大概歸納出會流失的顧客特徵:年齡:年輕人有比較高的機率會流失。

同間電信業停留時間:會流失的顧客通常一年內就會選擇換電信業。

合約時間:流失顧客的合約通常是以月為單位。

費用:相比總費用,月費更能看出顧客是否會流失;會流失的顧客通常月費越高。

所以這樣就結束了嗎?從上述「敘述性統計」的圖表中,我們基本得知了本電信產業的服務概況。

不過,我們顧問服務此類公司時,多數的業主其實皆早已知曉自身的產業特徵,也就是說,敘述性統計也通常已經無法滿足現今資料導向決策的需求。

所以我們是否能更進一步,在本公司消費者還沒有流失前,及時預測消費者的去留,以便做出及時留客的策略呢?我們將在下一篇「預測性分析建模」開始我們「預測顧客流失」的第一步,讓我們面對多種資料變數下,也能易如反掌的預測「流失」!敬請期待!作者:張家穎、徐佳靖、林蔚恩(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究創辦人)更多實戰案例及情境好文推薦透過機器學習預測股市漲跌-模型投資策略驗證(附Python程式碼)透過機器學習預測股市漲跌-模型投資策略驗證(附Python程式碼)此為系列文第四篇點此回顧_第一篇:掌握投資關鍵消息!從當日熱門新閱讀更多»跟著IG潮流來爬蟲 - 如何爬取IG貼文讚數&留言數(附Python程式碼)跟著IG潮流來爬蟲 - 如何爬取IG貼文讚數&留言數 (附Python程式碼)歡迎回到Selenium動態網頁爬蟲系列文章,本閱讀更多»資料操作大判官 - IF判斷式操作(附Python程式碼)資料操作大判官 - IF判斷式操作(附Python程式碼)在Python裡,流程控制有三大巨頭:if判斷式、while迴圈、閱讀更多»回到頂端



請為這篇文章評分?