CVM:顧客價值管理

文章推薦指數: 80 %
投票人數:10人

善用商業數據分析的工具和技巧,光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位),我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略 ... Code ShowAllCode HideAllCode DownloadRmd CVM:顧客價值管理 第五組:施采彣、唐思琪、楊凱倫、陳怡安 目錄 章節筆記 前言:從交易記錄到顧客價值1.資料整理2.層級式集群分析3.規則分群4.建立模型5.估計顧客終生價值6.設定行銷策略、規劃行銷工具7.選擇行銷對象8.結論 小組重點整理 1.顧客價值管理流程圖2.RFM名詞解釋3.泡泡圖分析4.顧客分群命名5.鯨魚圖6.lapplyvssapply7.CLV分析8.行銷策略與工具9.QUIZ 前言:從交易記錄到顧客價值 善用商業數據分析的工具和技巧,光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位),我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃,包括: 交易記錄分析: 敘述統計 趨勢、交叉分析 資料視覺化 顧客群組與標籤: 集群分析 群組屬性分析 組間流動機率 顧客(個人)流動機率 圖一、顧客價值管理的層次 從這一些分析我們可以看到公司主要的營收和獲利的重要來源,我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢;據此我們可以設定行銷的重點,決定行銷的策略,和規劃行銷的工具。

除了上述的敘述統計、集群分析、和資料視覺化之外,我們還可以利用這些簡單的交易紀錄: 建立預測性模型,預測每一位顧客的: 保留機率 預期營收 組間變換機率 下次可能購買時間 利用這一些預測我們就可以進行全面客製化的: 顧客價值管理: 顧客終生價值 顧客吸收策略 顧客發展策略 顧客保留策略 針對性行銷: 設計行銷方案 選擇行銷方案 選擇行銷對象 圖二、顧客價值管理流程 現在行銷重視客製化不同客戶的廣告,來達到精準行銷。

主要有兩個階段: 第一階段:先分群,做出不同隻面對不同消費族群的廣告 第二階段:預測各族群中,有哪些人會點擊這個廣告,再對他投放 回到目錄 Setup Sys.setlocale("LC_ALL","C") [1]"C" packages=c( "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools") existing=as.character(installed.packages()[,1]) for(pkginpackages[!(packages%in%existing)])install.packages(pkg) if(!is.element("chorddiag",existing)) devtools::install_github("mattflor/chorddiag") Library rm(list=ls(all=T)) options(digits=4,scipen=12) library(dplyr) library(ggplot2) library(caTools) package'caTools'wasbuiltunderRversion3.5.1 library(ROCR) package'ROCR'wasbuiltunderRversion3.5.1Loadingrequiredpackage:gplots package'gplots'wasbuiltunderRversion3.5.1 Attachingpackage:'gplots' Thefollowingobjectismaskedfrom'package:stats': lowess library(googleVis) library(chorddiag) 1.資料整理 1.1交易資料(X) 使用read.table()讀入資料,並設定欄位名稱 X=read.table( 'purchases.txt',header=FALSE,sep='\t',stringsAsFactors=F) names(X)=c('cid','amount','date') X$date=as.Date(X$date) summary(X)#交易次數51243#x:transaction cidamountdate Min.:10Min.:5Min.:2005-01-02 1stQu.:577201stQu.:251stQu.:2009-01-17 Median:102440Median:30Median:2011-11-23 Mean:108935Mean:62Mean:2011-07-14 3rdQu.:1605253rdQu.:603rdQu.:2013-12-29 Max.:264200Max.:4500Max.:2015-12-31 長條圖顯示出交易數目逐年上升 產生直方圖查看資料統計數量 par(cex=0.7) hist(X$date,"years",las=1,freq=T,xlab="",main="No.TransactionbyYear") n_distinct即numberofdistinct,查看有幾個不一樣的值(多少個顧客) n_distinct(X$cid)#18417 [1]18417 1.2顧客資料(A) 將截止日期(2016-01-01)距離交易日期的天數做為變數days,用來計算最近/最遠日購買,以及單一顧客總購買次數、平均購買金額 A:顧客資料 將「交易筆數」匯集成「顧客」 mutate:長出一個新欄位 A=X%>% mutate(days=as.integer(as.Date("2016-01-01")-date))%>% group_by(cid)%>%summarise( recent=min(days),#最近購買距今天數 freq=n(),#購買次數 money=mean(amount),#平均購買金額 senior=max(days),#第一次購買距今天數 since=min(date)#第一次購買日期 )%>%data.frame 1.4顧客資料摘要 summary(A) cidrecentfreq Min.:10Min.:1Min.:1.00 1stQu.:819901stQu.:2441stQu.:1.00 Median:136430Median:1070Median:2.00 Mean:137574Mean:1253Mean:2.78 3rdQu.:1951003rdQu.:21303rdQu.:3.00 Max.:264200Max.:4014Max.:45.00 moneyseniorsince Min.:5Min.:1Min.:2005-01-02 1stQu.:221stQu.:9881stQu.:2007-10-23 Median:30Median:2087Median:2010-04-15 Mean:58Mean:1984Mean:2010-07-26 3rdQu.:503rdQu.:29923rdQu.:2013-04-18 Max.:4500Max.:4016Max.:2015-12-31 1.5變數的分布狀況 recency:愈小表示顧客最近有來消費;愈大則代表很久沒來光顧 左比右高,代表一直有顧客來消費 seniority:愈小是新進顧客;愈大則是老顧客 第一次消費到截止日的時間會受到第一次日期影響,越短的消費日期不一定代表是一次性消費的顧客,可能會包含持續消費的顧客 若要分析是否為忠誠顧客,必須考慮到消費頻率 frequency:愈大表示顧客很常光顧(頻率高) 消費次數多落在1次左右,而消費過10次的人也有,表示有忠實顧客群 money:一般做分析時,金錢相關的變數都需取log 取10筆來進行log處理,x軸值再乘以10轉換成原始消費數字,消費金額多落在30元左右(1:10元,1.5:30元,2:100元,2.5:300元,3:1000元,3.5:3000元) 圖形上越長的條狀,是指該期間吸收很多新顧客 pmin()主要用途是設一個上限,並明確做出一個範圍 p0=par(cex=0.8,mfrow=c(2,2),mar=c(3,3,4,2)) hist(A$recent,20,main="recency",ylab="",xlab="") hist(pmin(A$freq,10),0:10,main="frequency",ylab="",xlab="") hist(A$senior,20,main="seniority",ylab="",xlab="") hist(log(A$money,10),main="log(money)",ylab="",xlab="") 回到目錄 2.層級式集群分析(靜態分群) 2.1RFM顧客分群 依照統計方式分群 1-10代表分10群,數字為族群大小 資料量大,故做k-mean會比較保險 集群分析,需要做距離矩陣 set.seed(111) A$grp=kmeans(scale(A[,2:4]),10)$cluster table(A$grp) 12345678910 107322661296223732071942178123922096127 2.2顧客群組屬性 泡泡圖同時顯示4種屬性:x軸、y軸、大小(反映族群對店家的營收貢獻)、顏色 除了能視覺化之外,泡泡隨時間的動態變化更重要 藉由動態資料的方式(不要把全部的資料做aggration),能夠看到屬性隨著時間的變換 以10年為例,可以依照不同年份年底做一次統計,這樣泡泡就會動(但可能每一年的分群規則都不一樣) 泡泡圖圓圈裡的數字代表該族群有多少人 我們最希望看到圈圈是紅色且出現在右上角 頻率高 客單價高 最近有消費 主力顧客群為:圓圈127 重點放在保留這一族群的顧客 希望提高他的購買頻率(往右拉) 可採用促銷打折的行銷方案 愈紅代表沉睡顧客,即將流失的顧客 X軸與Y軸分別放最重要的變數,並表示出各族群的貢獻 選擇重要的變數來表達目前各族群顧客的活動狀況: group_by(A,grp)%>%summarise( recent=mean(recent), freq=mean(freq), money=mean(money), size=n())%>% mutate(revenue=size*money/1000)%>% filter(size>1)%>% ggplot(aes(x=freq,y=money))+ geom_point(aes(size=revenue,col=recent),alpha=0.5)+ scale_size(range=c(4,30))+ scale_color_gradient(low="green",high="red")+ scale_x_log10()+scale_y_log10(limits=c(30,3000))+ geom_text(aes(label=size),size=3)+ theme_bw()+guides(size=F)+ labs(title="CustomerSegements", subtitle="(bubble_size:revenue_contribution;text:group_size)", color="Recency")+ xlab("Frequency(log)")+ylab("AverageTransactionAmount(log)") 回到目錄 3.規則分群(動態趨勢) 3.1顧客分群規則 設定顧客族群名稱 依照該年度整體表現區分顧客群 STS=c("N1","N2","R1","R2","S1","S2","S3") Status=function(rx,fx,mx,sx,K){factor( ifelse(sx<2*K, ifelse(fx*mx>50,"N2","N1"), ifelse(rx<2*K, ifelse(sx/fx<0.75*K,"R2","R1"), ifelse(rx<3*K,"S1", ifelse(rx<4*K,"S2","S3")))),STS)} 圖三、顧客分群規則 N1:新顧客 N2:新潛力顧客 R1:主力顧客 R2:核心顧客 S1:瞌睡顧客 S2:半睡顧客 S3:沉睡顧客 補充:鯨魚圖 藍線是公司的累積獲利,依據顧客對公司獲利的貢獻度由大到小: 淺藍色(頭):讓公司獲利增加的顧客 最理想的組合 人數很少 容易被搶走 選擇性保留 水藍色(背):讓公司獲利打平的顧客 幫助不大 人數最多,產生規模經濟 選擇性吸收 深藍色(尾):讓公司虧錢的顧客 選擇性發展 3.2平均購買週期 找「有購買過2次以上的購買顧客」的平均購買週期 回購顧客的平均購買週期K=521days,意思是平均兩年才買一次。

也可以用實際的狀況來做分群,A$freq>1是指購買頻率。

K=as.integer(sum(A$senior[A$freq>1])/sum(A$freq[A$freq>1]));K [1]521 3.3滑動資料窗格 Y=list()#建立一個空的LIST for(yin2010:2015){#每年年底將顧客資料彙整成一個資料框 D=as.Date(paste0(c(y,y-1),"-12-31"))#當期、前期的期末日期 Y[[paste0("Y",y)]]=X%>%#從交易資料做起 filter(date<=D[1])%>%#將資料切齊到期末日期 mutate(days=1+as.integer(D[1]-date))%>%#交易距期末天數 group_by(cid)%>%summarise(#依顧客彙總... recent=min(days),#最後一次購買距期末天數 freq=n(),#購買次數(至期末為止) money=mean(amount),#平均購買金額(至期末為止) senior=max(days),#第一次購買距期末天數 status=Status(recent,freq,money,senior,K),#期末狀態 since=min(date),#第一次購買日期 y_freq=sum(date>D[2]),#當期購買次數 y_revenue=sum(amount[date>D[2]])#當期購買金額 )%>%data.frame}#整個y,是一個迴圈變數,將所有dataframe置入 每一個顧客,會隨時間而有不同的結果產生(「行銷滑水道」重點:水缸大小、水缸間流動的速度有多大) 當有很多元件時,可以用這種Y$Y2015方法。

同一個顧客值會不一樣。

head(Y$Y2015) cidrecentfreqmoneyseniorstatussince 1103829130.003829S32005-07-08 280343771.433751R12005-09-24 39075810115.803783R22005-08-23 41201401120.001401S12012-03-01 51302970250.003710S32005-11-04 61602963230.003577S32006-03-17 y_freqy_revenue 100 2180 300 400 500 600 3.4每年年底的累計顧客人數 sapply(Y,nrow)#list配上sapply,非常好用 Y2010Y2011Y2012Y2013Y2014Y2015 104071167413562154681690518417 3.5族群大小變化趨勢 用sapply就是將Y每一個元素做nrow這個動作,並計算每年底這時間為止有多少資料總筆數。

s1(含)以下的皆為目前有消費行為的顧客 s3會從2010逐漸累積到2015,因此需要在分析時注意累積的問題 活躍顧客:淺藍色以下(2014達到巔峰,後續便沒有什麼成長) cols=c("gold","orange","blue","green","pink","magenta","darkred") sapply(Y,function(df)table(df$status))%>%barplot(col=cols) legend("topleft",rev(STS),fill=rev(cols)) 3.6族群屬性動態分析 CustSegments=do.call(rbind,lapply(Y,function(d){ group_by(d,status)%>%summarise(#以顧客族群做為分群標準,以下以族群為單位 average_frequency=mean(freq),#平均消費次數 average_amount=mean(money),#平均消費金額 total_revenue=sum(y_revenue),#總消費收益 total_no_orders=sum(y_freq),#所有消費次數 average_recency=mean(recent),#最後一次消費距今的平均天數 average_seniority=mean(senior),#第一次消費距今的平均天數 group_size=n()#計算族群大小 )}))%>%ungroup%>% mutate(year=rep(2010:2015,each=7))%>%data.frame#以年區分各族群表現 head(CustSegments) statusaverage_frequencyaverage_amounttotal_revenue 1N11.15426.9641046 2N22.26396.00121034 3R12.67443.2519407 4R25.40660.31108631 5S11.26744.610 6S21.16760.650 total_no_ordersaverage_recencyaverage_seniority 11500449.2507.1 21416241.2629.9 3435492.41470.0 41588157.11547.3 501289.31373.1 601889.71922.4 group_sizeyear 133302010 216552010 312982010 415472010 522032010 63602010 依據客群與年份,顯示參數之間的動態泡泡圖 plot(gvisMotionChart( CustSegments,"status","year", options=list(width=900,height=600))) 圖四、顧客分群規則 補充:apply系列公式 因為用傳統的方式要重複做好幾遍,Debug不易,因此有了apply系列 Lapply和sapply本質上差不多(sapply是進階版) Lapply會把回傳的資料放進一個list裡,list的elements可以是不同長度、資料型態或三個模型 Sapply會把回傳的資料,依據資料型態,自動生成一個vector或matrix 3.7族群屬性動態分析 整合2014及2015年各族群消費資料 流量矩陣(做一個table即可,可看到群間的流動數度) df=merge(Y$Y2014[,c(1,6)],Y$Y2015[,c(1,6)], by="cid",all.x=T) tx=table(df$status.x,df$status.y)%>% as.data.frame.matrix()%>%as.matrix() tx N1N2R1R2S1S2S3 N117053811444583100 N20113126743026300 R10012404381900 R20019917427500 S100115381910260 S20078106921339 S300970003420 可以做個table簡單的矩陣,以表現出目前流量比較 tx%>%prop.table(1)%>%round(3)#流量矩陣(%),並計算到小數點第三位 N1N2R1R2S1S2S3 N10.5490.1230.0460.0140.2680.0000.000 N20.0000.5410.1280.2060.1260.0000.000 R10.0000.0000.5900.0200.3900.0000.000 R20.0000.0000.0990.8640.0370.0000.000 S10.0000.0000.0590.0020.4170.5230.000 S20.0000.0000.0370.0000.0000.3280.635 S30.0000.0000.0280.0000.0000.0000.972 3.8互動式流量分析 各族群流量,包含流入、不變、流出 chorediagram(和弦圖、樂譜符號圖,可以變動,可以看出流數) 圓周弧度:族群人數 中間的小丘:保留在族群內的人 中間的弧線:族群間流動的人數 chorddiag(tx,groupColors=cols) 回到目錄 4.建立模型 在這個案例裡面,我們的資料是收到Y2015年底,所以我們可以假設現在的時間是Y2015年底,我們想要用現有的資料建立模型,來預測每一位顧客: 在Y2016年是否會來購買(保留率:Retain) 她來購買的話,會買多少錢(購買金額:Revenue) 但是,我們並沒有Y2016的資料,為了要建立模型,我們需要先把時間回推一期,也就是說: 用Y2014年底以前的資料整理出預測變數(X) 用Y2015年的資料整理出目標變數(Y) 假如Y2016的情況(跟Y2015比)沒有太大的變化的話,接下來我們就可以 使用該模型,以Y2015年底的資料,預測Y2016的狀況 4.1準備資料 我們用Y2014年底的資料做自變數,Y2015年的資料做應變數 y在2015的資料當中 left_join:2個資料框,類似查表的概念,結合兩個資料框,使用cid,把後面的資料抄到前面的資料(如果欄位表頭不一致,以left為主) .x和.y:R當中自動加的 y_revenue.y:2015來買多少錢 y_freq.y:2015會不會來買 CX=left_join(Y$Y2014,Y$Y2015[,c(1,8,9)],by="cid") head(CX) cidrecentfreqmoneyseniorstatussince 1103464130.03464S32005-07-08 280302670.03386R12005-09-24 39039310115.83418R22005-08-23 41201036120.01036N12012-03-01 51302605250.03345S32005-11-04 61602598230.03212S32006-03-17 y_freq.xy_revenue.xy_freq.yy_revenue.y 10000 2180180 30000 40000 50000 60000 X=Y\(Y2014Y=Y\)Y2015[,c(1,8,9):1是cid,並用這個欄位來做建置。

left_join()兩邊都要有cid才有辦法做join,但如果我只有一列那我只留下左邊。

y_freq.xy_revenue.xy_freq.y需要兩個Y,做類別變數。

需要看2015年會不會再次購買,需要看y_freq.y,Retain(保留率)需要大於0 names(CX)[8:11]=c("freq0","revenue0","Retain","Revenue") CX$Retain=CX$Retain>0 head(CX) cidrecentfreqmoneyseniorstatussincefreq0 1103464130.03464S32005-07-080 280302670.03386R12005-09-241 39039310115.83418R22005-08-230 41201036120.01036N12012-03-010 51302605250.03345S32005-11-040 61602598230.03212S32006-03-170 revenue0RetainRevenue 10FALSE0 280TRUE80 30FALSE0 40FALSE0 50FALSE0 60FALSE0 Retain()保留機率用y_revenue=y Retai做類別模型的YRevenue做回歸模型的Y table(CX$Retain)%>%prop.table()#平均保留機率=22.54% FALSETRUE 0.77010.2299 4.2建立類別模型 mRet=glm(Retain~.,CX[,c(2:3,6,8:10)],family=binomial()) summary(mRet) Call: glm(formula=Retain~.,family=binomial(),data=CX[,c(2:3, 6,8:10)]) DevianceResiduals: Min1QMedian3QMax -3.689-0.473-0.298-0.1423.386 Coefficients: EstimateStd.Errorzvalue (Intercept)-1.0740070.089431-12.01 recent-0.0020670.000131-15.73 freq0.0952170.0138826.86 statusN20.6694290.0702349.53 statusR10.4883210.0843895.79 statusR21.2900020.11084111.64 statusS10.6706040.1465324.58 statusS21.3535540.2082106.50 statusS32.5736890.2757869.33 freq00.5665570.0655328.65 revenue0-0.0001320.000135-0.98 Pr(>|z|) (Intercept)<2e-16*** recent<2e-16*** freq0.0000000000069*** statusN2<2e-16*** statusR10.0000000071864*** statusR2<2e-16*** statusS10.0000047279944*** statusS20.0000000000798*** statusS3<2e-16*** freq0<2e-16*** revenue00.33 --- Signif.codes: 0'***'0.001'**'0.01'*'0.05'.'0.1''1 (Dispersionparameterforbinomialfamilytakentobe1) Nulldeviance:18228on16904degreesoffreedom Residualdeviance:11766on16894degreesoffreedom AIC:11788 NumberofFisherScoringiterations:6 4.3估計類別模型的準確性 混淆矩陣(ConfusionMatrix) pred=predict(mRet,type="response") table(pred>0.5,CX$Retain) FALSETRUE FALSE120451530 TRUE9742356 table(pred>0.5,CX$Retain)%>% {sum(diag(.))/sum(.)}#正確率(ACC):85.19% [1]0.8519 colAUC(pred,CX$Retain)#辯識率(AUC):87.92% [,1] FALSEvs.TRUE0.8792 prediction(pred,CX$Retain)%>%#ROCCURVE performance("tpr","fpr")%>% plot(print.cutoffs.at=seq(0,1,0.1)) 4.4建立數量模型 dx=subset(CX,Revenue>0)#只對有來購買的人做模型(假如有來買的人,會買多少錢?) mRev=lm(log(Revenue)~recent+freq+log(1+money)+senior+ status+freq0+log(1+revenue0),dx) summary(mRev)#判定係數:R2=0.713#比較取了log()的R-square Call: lm(formula=log(Revenue)~recent+freq+log(1+money)+ senior+status+freq0+log(1+revenue0),data=dx) Residuals: Min1QMedian3QMax -3.245-0.209-0.0670.2053.435 Coefficients: EstimateStd.Errortvalue (Intercept)0.05879300.04583441.28 recent0.00035410.00005076.98 freq0.05268500.004650411.33 log(1+money)0.93208180.013520368.94 senior-0.00013690.0000182-7.52 statusN20.01277160.02626560.49 statusR10.19275320.04075794.73 statusR20.02976850.03524790.84 statusS10.00824060.06303550.13 statusS2-0.24063980.0865731-2.78 statusS3-0.36673410.1181061-3.11 freq00.01031330.01725510.60 log(1+revenue0)0.06327560.00940036.73 Pr(>|t|) (Intercept)0.1997 recent0.00000000000337*** freq<2e-16*** log(1+money)<2e-16*** senior0.00000000000007*** statusN20.6268 statusR10.00000233405019*** statusR20.3984 statusS10.8960 statusS20.0055** statusS30.0019** freq00.5501 log(1+revenue0)0.00000000001930*** --- Signif.codes: 0'***'0.001'**'0.01'*'0.05'.'0.1''1 Residualstandarderror:0.463on3873degreesoffreedom MultipleR-squared:0.713,AdjustedR-squared:0.712 F-statistic:802on12and3873DF,p-value:<2e-16 plot(log(dx$Revenue),predict(mRev),col='pink',cex=0.65) abline(0,1,col='red') Revenue要做線性模時必須log來做 紅線是預測值,粉紅小圈圈是實際值 回到目錄 5.估計顧客終生價值(CLV) 5.1Y2016的預測值 因為沒有未來的資料,需要把時間往回推一期,也就是使用模型對Y2015年底的資料做預測,對資料中的每一位顧客,預測她們在Y2016的保留率和購買金額。

CX=Y$Y2015 names(CX)[8:9]=c("freq0","revenue0") CX$ProbRetain=predict(mRet,CX,type='response')#預測Y2016保留率 CX$PredRevenue=exp(predict(mRev,CX))#預測Y2016購買金額 par(mfrow=c(1,2),mar=c(5,3,3,2),cex=0.8) hist(CX$ProbRetain,main="ProbRetain",ylab="")#顧客保留率落在0.1左右,這部分代表有些顧客消費並不頻繁 hist(log(CX$PredRevenue,10),main="log(PredRevenue)",ylab="")#根據直方圖顯示,預測出來的總收益分布與原先的分布情況相似 5.2估計顧客終生價值(CLV) 顧客\(i\)的終生價值 \[V_i=\sum_{t=0}^Ng\timesm_i\frac{r_i^t}{(1+d)^t}=g\timesm_i\sum_{t=0}^N(\frac{r_i}{1+d})^t\] Assume顧客不會永遠忠實,因此採期數計算,由公式得出每個顧客對公司值多少錢: \(m_i\)、\(r_i\):顧客\(i\)的預期(每期)營收貢獻、保留機率 \(g\)、\(d\):公司的(稅前)營業利潤利率、資金成本 g=0.5#(稅前)獲利率 N=5#期數=5 d=0.1#利率=10% CX$CLV=g*CX$PredRevenue*rowSums(sapply( 0:N,function(i)(CX$ProbRetain/(1+d))^i)) summary(CX$CLV) Min.1stQu.MedianMean3rdQu.Max. 3162451455094 par(mar=c(3,3,3,1),cex=0.8) hist(log(CX$CLV,10),xlab="",ylab="")#CLV是用錢算出來的,所以也是錢,需要用log來算#取log後所得的值約為30塊/一顧客 5.3比較各族群的價值 消費金額高的顧客不少(尾巴長) 新顧客與沉睡顧客的價值差不多 新顧客變成主力顧客的機率不大 sapply(CX[,10:12],tapply,CX$status,mean)#各族群的平均營收貢獻、保留機率、終生價值 ProbRetainPredRevenueCLV N10.2026931.9820.17 N20.44075131.23110.89 R10.3415069.8554.60 R20.7492591.27136.31 S10.0572456.1029.66 S20.0347549.4825.58 S30.0232649.3625.17 新顧客(N1)跟睡著的顧客(S1、S2、S3)所帶給這間店的價值其實差不多 par(mar=c(3,3,4,2),cex=0.8) boxplot(log(CLV)~status,CX,main="CLVbyGroups") 回到目錄 6.設定行銷策略、規劃行銷工具 首先進行各族群的屬性統整,再設定行銷策略與工具。

屬性分析 N1(新顧客) CLV低 人數些微浮動,大體一致 流向S1>N2>R1(加總快一半) N2(新潛力顧客) CLV次高 人數稍微有向上趨勢,但2015年又些微減少 流向R2>R1>S1(加總一半) R1(主力顧客) CLV普通 人數近年穩定 快一半流向S1 R2(核心顧客) CLV最高 人數每年穩定 少數流向R1 S1(瞌睡顧客) CLV低 人數稍微變多 一半流向S2 S2(半睡顧客) CLV低 人數稍為減少 三分之一流向S3 S3(沉睡顧客) CLV低 人數逐年上升 大部分維持原地 整體而言,各族群大小差不多 惟S3偏大(介於整體四分到三分之一) S1同N1次大 N2,R1與R2差不多 S2最少 行銷策略與工具 S1,S2,S3正在逐漸擴大且不斷往S3前進,需要抑制此現象,可以藉由一般網路上的行銷工具增加品牌形象,或用廣告追蹤的方式,不斷露出與曝光,以增加該族群對品牌的印象。

R1也漸漸流失,應推出VIP及客製化等服務加強R1與R2的黏著度,並規劃短期促銷活動吸引其注意力,並可以使用的行銷工具,例如LINE+,可以針對主力客戶有專屬行銷方案,同時客戶可以用LINE+詢問並方便,業主增加與主力客戶的黏著力,以鞏固主力客戶的忠誠度。

由於N1浮動率太大且無過多價值,不應花費太多時間在這些人身上 但對於N2則不同,他們的CLV很高,但2015年人數卻突然下降,應將精力放在經營N2族群,可以透過FB粉絲團的經營方式,定期發送文案,並將品牌深化質感經營,以抓住N2消費者的經營。

回到目錄 7.選擇行銷對象 給定某一行銷工具的成本和預期效益,選擇可以施行這項工具的對象。

7.1對R2族群進行保留 R2族群的預測保留率和購買金額 par(mfrow=c(1,2),mar=c(4,3,3,2),cex=0.8) hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="") hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="") 7.2估計預期報酬 假設行銷工具的成本和預期效益為以下(給定假設) 成本:藉由過去經驗所得到之行銷工具成本的假設數值 效益:顧客接受到該行銷工具所產生的購買行為(下一期的購買機率) cost=10 effect=0.75 估計這項行銷工具對每一位R2顧客的預期報酬 Target=subset(CX,status=="R2") Target$ExpReturn=(effect-Target$ProbRetain)*Target$PredRevenue-cost summary(Target$ExpReturn)#因為保留機率(ProbRetain)設定為0.75,即表示>0.75的族群不能使用這支程式(會導致預期報償為負值) Min.1stQu.MedianMean3rdQu.Max. -515.8-15.4-11.5-10.3-8.1646.9 這一項工具對R2顧客的預期報酬是負的,商業數據分析不能用平均值做分析 7.3選擇行銷對象 但是,我們還是可以從R2中挑出許多預期報酬很大的行銷對象 Target%>%arrange(desc(ExpReturn))%>%select(cid,ExpReturn)%>%head(15)#找出ExpReturn前15名 cidExpReturn 1141340646.85 2164930609.02 32190323.38 4172750305.75 5156280289.41 6190570236.91 7134030199.29 8141430150.73 9123480134.52 1065830110.61 11150890107.18 1213459099.48 137200092.55 1413308084.54 1514751077.18 針對性行銷:將決定下到每個人身上,而不再是以群體為分析對象,可以得到additionrevenue sum(Target$ExpReturn>0)#可實施對象:258 [1]258 在R2之中,有258人的預期報酬大於零,如果對這258人使用這項工具,我們的期望報酬是: sum(Target$ExpReturn[Target$ExpReturn>0])#預期報酬:6464 [1]6464 QUIZ: 我們可以算出對所有的族群實施這項工具的期望報酬 Target=CX Target$ExpReturn=(effect-Target$ProbRetain)*Target$PredRevenue-cost filter(Target,Target$ExpReturn>0)%>% group_by(status)%>%summarise( No.Target=n(), AvgROI=mean(ExpReturn), TotalROI=sum(ExpReturn))%>%data.frame statusNo.TargetAvgROITotalROI 1N122119.97322049 2N2145947.23868920 3R1159625.45940633 4R225825.0546464 5S1264530.59280915 6S2160927.13443658 7S3449527.598124052 這個結果是合理的嗎?你想要怎麼修正這項分析的程序呢? 數據顯示對已無多少價值的沉睡顧客S3使用此行銷工具,比對主力顧客R2的預期報酬還好超過20倍,實在不合理 設定行銷工具的成本和效益應隨不同族群與過往經驗而變,當報償矩陣裡面的設定值發生變動後,得到的期望報酬也就不同 可能修正的方向: 新顧客群(N1,N2): 由前面的觀察,N1族群的價值與S系列族群CLV差不多,他們是一群流動率很高的人,不需花費太多精力或花招去吸引他們,其投資報酬率太低 相對起來,N2是一群很有潛力的族群,我們可以好好發展,培養他們成為主力客群,因此應投入較多的成本,我們預估在這裡的效益不錯,但不能確定多高 主力顧客群(R1,R2):CLV最高的族群,他們忠實且穩定是我們最想留住並成長的對象,卻開始逐漸出現流失現象,因此應花最多成本在保留他們,增加其黏著度,其投資報酬率可以預見是相當高的。

沉睡顧客群(S1,S2,S3):對於愈來愈龐大的沉睡顧客,我們很難再喚醒他們,最好的方式是從根本解決(不要讓R系列的流失),因此對於S系列,我們不打算投入太多成本 回到目錄 8.結論 如果你只有顧客ID、交易日期、交易金額三個欄位的話,你可以做的分析包括: 全體顧客和每一個顧客分群的: 族群大小與成長趨勢 族群屬性分析:如平均CLV、平均營收貢獻、成長率、毛利率(需要有成本資料)等等 組間流量和平均流動機率 每一個顧客的: 保留率、預期購買金額、終身價值 目前所在群組,以及下一期會轉到個群組的機率 如果有行銷工具的使用紀錄的話,我們也可以估計每一樣行銷工具、對每一位顧客的成功機率 一般而言,這一些分析的結果,足夠讓我們制定顧客發展和顧客保留策略;至於顧客吸收策略,我們通常還需要從CRM撈出顧客個人屬性資料才能做到。

回到目錄 ---
title: "CVM：顧客價值管理 "
author: "第五組：施采彣、唐思琪、楊凱倫、陳怡安"
output: html_notebook
---

<br>

### <a id="top"><a/> 目錄

#### 章節筆記

[前言：從交易記錄到顧客價值](#n0) <br>
[1. 資料整理](#n1) <br>
[2. 層級式集群分析](#n2) <br>
[3. 規則分群](#n3) <br>
[4. 建立模型](#n4) <br>
[5. 估計顧客終生價值](#n5) <br>
[6. 設定行銷策略、規劃行銷工具](#n6) <br>
[7. 選擇行銷對象](#n7) <br>
[8. 結論](#n8) <br>

#### 小組重點整理
[1. 顧客價值管理流程圖](#g0) <br>
[2. RFM名詞解釋](#g1) <br>
[3. 泡泡圖分析](#g2) <br>
[4. 顧客分群命名](#g3) <br>
[5. 鯨魚圖](#g4) <br>
[6. lapply vs sapply](#g5) <br>
[7. CLV分析](#g6) <br>
[8. 行銷策略與工具](#g7) <br>
[9. QUIZ](#g8) <br>


<br><hr>

### <a id="n0"></a> 前言：從交易記錄到顧客價值

善用商業數據分析的工具和技巧，光靠一份最簡單的交易紀錄(只有顧客ID、交易日期和交易金額三個欄位)，我們就可以做一系列很深入、很有價值的顧客價值分析和行銷策略規劃，包括：

+ **交易記錄分析**：
    + 敘述統計
    + 趨勢、交叉分析
    + 資料視覺化

+ **顧客群組與標籤**：
    + 集群分析
    + 群組屬性分析
    + 組間流動機率
    + 顧客(個人)流動機率


<center>

![圖一、顧客價值管理的層次](fig/fig1.png)

</center>

<br>從這一些分析我們可以看到公司主要的營收和獲利的重要來源，我們也可以看到這一些產生獲利的群組是不是有成長或者衰退的趨勢；據此我們可以設定行銷的重點，決定行銷的策略，和規劃行銷的工具。除了上述的敘述統計、集群分析、和資料視覺化之外，我們還可以利用這些簡單的交易紀錄：

+ **建立預測性模型**，預測每一位顧客的：
    + 保留機率
    + 預期營收
    + 組間變換機率
    + 下次可能購買時間

<br>利用這一些預測我們就可以進行全面客製化的： 

+ **顧客價值管理**：
    + 顧客終生價值
    + 顧客吸收策略
    + 顧客發展策略
    + 顧客保留策略

+ **針對性行銷**：
    + 設計行銷方案
    + 選擇行銷方案
    + 選擇行銷對象

<center>

 <a id="g0"></a>  
 
 ![圖二、顧客價值管理流程](fig/fig2.png)

</center>

<br>現在行銷重視客製化不同客戶的廣告，來達到精準行銷。主要有兩個階段：

+ 第一階段：先分群，做出不同隻面對不同消費族群的廣告
+ 第二階段：預測各族群中，有哪些人會點擊這個廣告，再對他投放

 <br>
 
[回到目錄](#top) <br>

<br><hr>

##### Setup 
```{r}
Sys.setlocale("LC_ALL","C")
packages = c(
  "dplyr","ggplot2","googleVis","devtools","magrittr","caTools","ROCR","caTools")
existing = as.character(installed.packages()[,1])
for(pkg in packages[!(packages %in% existing)]) install.packages(pkg)

if(!is.element("chorddiag", existing))
  devtools::install_github("mattflor/chorddiag")
```

##### Library
```{r echo=T, message=F, cache=F, warning=F}
rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(ggplot2)
library(caTools)
library(ROCR)
library(googleVis)
library(chorddiag)
```
<br><hr>


### <a id="n1"></a> 1. 資料整理

##### 1.1 交易資料 (X)

+ 使用read.table()讀入資料，並設定欄位名稱
```{r}
X = read.table(
  'purchases.txt', header=FALSE, sep='\t', stringsAsFactors=F)
names(X) = c('cid','amount','date')
X$date = as.Date(X$date)
summary(X)        # 交易次數 51243  # x: transaction 
```

+ 長條圖顯示出交易數目逐年上升
+ 產生直方圖查看資料統計數量

```{r fig.height=3, fig.width=7.2}
par(cex=0.7)
hist(X$date, "years", las=1, freq=T, xlab="", main="No. Transaction by Year")
```

+ n_distinct即number of distinct，查看有幾個不一樣的值（多少個顧客）

```{r}
n_distinct(X$cid) # 18417
```

##### 1.2 顧客資料 (A)

+ 將截止日期(2016-01-01)距離交易日期的天數做為變數days，用來計算最近/最遠日購買，以及單一顧客總購買次數、平均購買金額
+ A: 顧客資料
+ 將「交易筆數」匯集成「顧客」
+ mutate: 長出一個新欄位

```{r}
A = X %>% 
  mutate(days = as.integer(as.Date("2016-01-01") - date)) %>% 
  group_by(cid) %>% summarise(
    recent = min(days),     # 最近購買距今天數
    freq = n(),             # 購買次數
    money = mean(amount),   # 平均購買金額
    senior = max(days),     # 第一次購買距今天數
    since = min(date)       # 第一次購買日期
  ) %>% data.frame
```

##### 1.4 顧客資料摘要
```{r}
summary(A)
```

##### <a id="g1"></a> 1.5 變數的分布狀況

+ recency：愈小表示顧客最近有來消費；愈大則代表很久沒來光顧
    + 左比右高，代表一直有顧客來消費
+ seniority：愈小是新進顧客；愈大則是老顧客
    + 第一次消費到截止日的時間會受到第一次日期影響，越短的消費日期不一定代表是一次性消費的顧客，可能會包含持續消費的顧客
    + 若要分析是否為忠誠顧客，必須考慮到消費頻率
+ frequency: 愈大表示顧客很常光顧(頻率高)
    + 消費次數多落在1次左右，而消費過10次的人也有，表示有忠實顧客群
+ money：一般做分析時，金錢相關的變數都需取log
    + 取10筆來進行log處理，x軸值再乘以10轉換成原始消費數字，消費金額多落在30元左右(1：10元, 1.5：30元, 2：100元, 2.5：300元, 3：1000元, 3.5：3000元)
+ 圖形上越長的條狀，是指該期間吸收很多新顧客
+ pmin()主要用途是設一個上限，並明確做出一個範圍

```{r fig.height=4, fig.width=8}
p0 = par(cex=0.8, mfrow=c(2,2), mar=c(3,3,4,2))
hist(A$recent,20,main="recency",ylab="",xlab="")
hist(pmin(A$freq, 10),0:10,main="frequency",ylab="",xlab="")
hist(A$senior,20,main="seniority",ylab="",xlab="")
hist(log(A$money,10),main="log(money)",ylab="",xlab="")
```
 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n2"></a> 2. 層級式集群分析(靜態分群)

##### <a id="g2"></a> 2.1 RFM顧客分群

+ 依照統計方式分群
+ 1-10代表分10群，數字為族群大小
+ 資料量大，故做k-mean會比較保險
+ 集群分析，需要做距離矩陣

```{r}
set.seed(111)
A$grp = kmeans(scale(A[,2:4]),10)$cluster   
table(A$grp)
```

##### 2.2 顧客群組屬性

+ 泡泡圖
    同時顯示4種屬性：x軸、y軸、大小（反映族群對店家的營收貢獻）、顏色
    + 除了能視覺化之外，泡泡隨時間的動態變化更重要
    + 藉由動態資料的方式（不要把全部的資料做aggration），能夠看到屬性隨著時間的變換
    + 以10年為例，可以依照不同年份年底做一次統計，這樣泡泡就會動（但可能每一年的分群規則都不一樣）
    + 泡泡圖圓圈裡的數字代表該族群有多少人
+ 我們最希望看到圈圈是紅色且出現在右上角
    + 頻率高
    + 客單價高
    + 最近有消費
+ 主力顧客群為：圓圈127
    + 重點放在保留這一族群的顧客
    + 希望提高他的購買頻率(往右拉)
    + 可採用促銷打折的行銷方案
+ 愈紅代表沉睡顧客，即將流失的顧客
+ X軸與Y軸分別放最重要的變數，並表示出各族群的貢獻
+ 選擇重要的變數來表達目前各族群顧客的活動狀況：

```{r fig.height=4.5, fig.width=8}
group_by(A, grp) %>% summarise(
  recent=mean(recent), 
  freq=mean(freq), 
  money=mean(money), 
  size=n() ) %>% 
  mutate( revenue = size*money/1000 )  %>% 
  filter(size > 1) %>% 
  ggplot(aes(x=freq, y=money)) +
  geom_point(aes(size=revenue, col=recent),alpha=0.5) +
  scale_size(range=c(4,30)) +
  scale_color_gradient(low="green",high="red") +
  scale_x_log10() + scale_y_log10(limits=c(30,3000)) + 
  geom_text(aes(label = size ),size=3) +
  theme_bw() + guides(size=F) +
  labs(title="Customer Segements",
       subtitle="(bubble_size:revenue_contribution; text:group_size)",
       color="Recency") +
  xlab("Frequency (log)") + ylab("Average Transaction Amount (log)")  
```
 <br>
 
[回到目錄](#top)

<br><hr>


### <a id="n3"></a> 3. 規則分群(動態趨勢)

##### 3.1 顧客分群規則

+ 設定顧客族群名稱
+ 依照該年度整體表現區分顧客群

```{r}
STS = c("N1","N2","R1","R2","S1","S2","S3")
Status = function(rx,fx,mx,sx,K) {factor(
  ifelse(sx < 2*K,
         ifelse(fx*mx > 50, "N2", "N1"),
         ifelse(rx < 2*K,
                ifelse(sx/fx < 0.75*K,"R2","R1"),
                ifelse(rx < 3*K,"S1",
                       ifelse(rx < 4*K,"S2","S3")))), STS)}
```

<a id="g3"></a> 

![圖三、顧客分群規則](fig/fig3.jfif)


+ N1：新顧客
+ N2：新潛力顧客
+ R1：主力顧客
+ R2：核心顧客
+ S1：瞌睡顧客
+ S2：半睡顧客
+ S3：沉睡顧客

<a id="g4"></a> 

![補充：鯨魚圖](fig/1.jpg)

+ 藍線是公司的累積獲利，依據顧客對公司獲利的貢獻度由大到小：
    + 淺藍色（頭）：讓公司獲利增加的顧客
        + 最理想的組合
        + 人數很少
        + 容易被搶走
        + 選擇性保留
    + 水藍色（背）：讓公司獲利打平的顧客
        + 幫助不大
        + 人數最多，產生規模經濟
        + 選擇性吸收
    + 深藍色（尾）：讓公司虧錢的顧客
        + 選擇性發展

<br>

##### 3.2 平均購買週期

+ 找「有購買過2次以上的購買顧客」的平均購買週期
+ 回購顧客的平均購買週期 `K = 521 days`，意思是平均兩年才買一次。
+ 也可以用實際的狀況來做分群，A$freq>1 是指購買頻率。

```{r}
K = as.integer(sum(A$senior[A$freq>1]) / sum(A$freq[A$freq>1])); K
```

##### 3.3 滑動資料窗格

```{r}
Y = list()              # 建立一個空的LIST
for(y in 2010:2015) {   # 每年年底將顧客資料彙整成一個資料框
  D = as.Date(paste0(c(y, y-1),"-12-31")) # 當期、前期的期末日期 
  Y[[paste0("Y",y)]] = X %>%        # 從交易資料做起
    filter(date <= D[1]) %>%        # 將資料切齊到期末日期
    mutate(days = 1 + as.integer(D[1] - date)) %>%   # 交易距期末天數
    group_by(cid) %>% summarise(    # 依顧客彙總 ...
      recent = min(days),           #   最後一次購買距期末天數   
      freq = n(),                   #   購買次數 (至期末為止)   
      money = mean(amount),         #   平均購買金額 (至期末為止)
      senior = max(days),           #   第一次購買距期末天數
      status = Status(recent,freq,money,senior,K),  # 期末狀態
      since = min(date),                      # 第一次購買日期
      y_freq = sum(date > D[2]),              # 當期購買次數
      y_revenue = sum(amount[date > D[2]])    # 當期購買金額
    ) %>% data.frame }    # 整個y，是一個迴圈變數，將所有dataframe置入
```

+ 每一個顧客，會隨時間而有不同的結果產生(「行銷滑水道」重點：水缸大小、水缸間流動的速度有多大)
+ 當有很多元件時，可以用這種Y$Y2015方法。
+ 同一個顧客值會不一樣。
```{r}
head(Y$Y2015)
```

##### 3.4 每年年底的累計顧客人數
```{r}
sapply(Y, nrow)   # list 配上 sapply，非常好用
```

##### 3.5 族群大小變化趨勢

+ 用sapply就是將Y每一個元素做nrow這個動作，並計算每年底這時間為止有多少資料總筆數。
+ s1(含)以下的皆為目前有消費行為的顧客
+ s3會從2010逐漸累積到2015，因此需要在分析時注意累積的問題
+ 活躍顧客：淺藍色以下(2014達到巔峰，後續便沒有什麼成長)

```{r fig.height=4, fig.width=8}
cols = c("gold","orange","blue","green","pink","magenta","darkred")
sapply(Y, function(df) table(df$status)) %>% barplot(col=cols)
legend("topleft",rev(STS),fill=rev(cols))
```

##### 3.6 族群屬性動態分析
```{r}
CustSegments = do.call(rbind, lapply(Y, function(d) {
  group_by(d, status) %>% summarise(      #以顧客族群做為分群標準，以下以族群為單位
    average_frequency = mean(freq),       #平均消費次數
    average_amount = mean(money),         #平均消費金額
    total_revenue = sum(y_revenue),       #總消費收益
    total_no_orders = sum(y_freq),        #所有消費次數
    average_recency = mean(recent),       #最後一次消費距今的平均天數
    average_seniority = mean(senior),     #第一次消費距今的平均天數
    group_size = n()                      #計算族群大小
  )})) %>% ungroup %>% 
  mutate(year=rep(2010:2015, each=7)) %>% data.frame   #以年區分各族群表現
head(CustSegments)
```

+ 依據客群與年份，顯示參數之間的動態泡泡圖
```{r eval=F}
plot( gvisMotionChart(
  CustSegments, "status", "year",
  options=list(width=900, height=600) ) )
```


<center>


![圖四、顧客分群規則](fig/fig4.jfif)

<a id="g5"></a> 

![補充：apply系列公式](fig/2.jpg)

</center>

+ 因為用傳統的方式要重複做好幾遍，Debug不易，因此有了apply系列
+ Lapply和sapply本質上差不多（sapply是進階版）
    + Lapply會把回傳的資料放進一個list裡，list的elements可以是不同長度、資料型態或三個模型
    + Sapply會把回傳的資料，依據資料型態，自動生成一個vector或matrix

<br>

##### 3.7 族群屬性動態分析

+ 整合2014及2015年各族群消費資料
+ 流量矩陣(做一個table即可，可看到群間的流動數度)

```{r}
df = merge(Y$Y2014[,c(1,6)], Y$Y2015[,c(1,6)],
           by="cid", all.x=T)
tx = table(df$status.x, df$status.y) %>% 
  as.data.frame.matrix() %>% as.matrix()
tx   
```

+ 可以做個table簡單的矩陣，以表現出目前流量比較

```{r}
tx %>% prop.table(1) %>% round(3)   # 流量矩陣(%)，並計算到小數點第三位
```


##### 3.8 互動式流量分析

+ 各族群流量，包含流入、不變、流出
+ chore diagram（和弦圖、樂譜符號圖，可以變動，可以看出流數）
+ 圓周弧度：族群人數
+ 中間的小丘：保留在族群內的人
+ 中間的弧線：族群間流動的人數

```{r}
chorddiag(tx, groupColors=cols)     
```

![](fig/chord.jpg)

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n4"></a> 4. 建立模型

在這個案例裡面，我們的資料是收到Y2015年底，所以我們可以假設現在的時間是Y2015年底，我們想要用現有的資料建立模型，來預測每一位顧客：

+ 在Y2016年是否會來購買 (保留率：Retain)
+ 她來購買的話，會買多少錢 (購買金額：Revenue)

但是，我們並沒有Y2016的資料，為了要建立模型，我們需要先把時間回推一期，也就是說：

+ 用Y2014年底以前的資料整理出預測變數(X) 
+ 用Y2015年的資料整理出目標變數(Y) 

假如Y2016的情況(跟Y2015比)沒有太大的變化的話，接下來我們就可以

+ 使用該模型，以Y2015年底的資料，預測Y2016的狀況

##### 4.1 準備資料
我們用Y2014年底的資料做自變數，Y2015年的資料做應變數

+ y在2015的資料當中
+ left_join：2個資料框，類似查表的概念，結合兩個資料框，使用cid，把後面的資料抄到前面的資料(如果欄位表頭不一致，以left為主)
+ .x和.y：R當中自動加的
+ y_revenue.y：2015來買多少錢
+ y_freq.y：2015會不會來買

```{r}
CX = left_join(Y$Y2014, Y$Y2015[,c(1,8,9)], by="cid") 
head(CX)
```

+ X=Y$Y2014
  Y=Y$Y2015[,c(1,8,9)：1是cid，並用這個欄位來做建置。
+ left_join()兩邊都要有cid才有辦法做join，但如果我只有一列那我只留下左邊。
+ y_freq.x y_revenue.x y_freq.y 需要兩個Y，做類別變數。
+ 需要看2015年會不會再次購買，需要看y_freq.y，Retain (保留率)需要大於0

```{r}
names(CX)[8:11] = c("freq0","revenue0","Retain", "Revenue")
CX$Retain = CX$Retain > 0      
head(CX)
```

+ Retain（）保留機率
  用y_revenue＝ｙ
+ Retai做類別模型的Ｙ
  Revenue做回歸模型的Ｙ

```{r}
table(CX$Retain) %>% prop.table()  # 平均保留機率 = 22.54%
```

##### 4.2 建立類別模型
```{r}
mRet = glm(Retain ~ ., CX[,c(2:3,6,8:10)], family=binomial())
summary(mRet)
```

##### 4.3 估計類別模型的準確性

+ 混淆矩陣 (Confusion Matrix)  
```{r}
pred = predict(mRet,type="response")
table(pred>0.5,CX$Retain) 
```

```{r}
table(pred>0.5,CX$Retain) %>% 
  {sum(diag(.))/sum(.)}            # 正確率(ACC): 85.19% 
```

```{r}
colAUC(pred,CX$Retain)             # 辯識率(AUC): 87.92%
```

```{r fig.height=4, fig.width=4}
prediction(pred, CX$Retain) %>%    # ROC CURVE 
  performance("tpr", "fpr") %>% 
  plot(print.cutoffs.at=seq(0,1,0.1))
```

##### 4.4 建立數量模型
```{r}
dx = subset(CX, Revenue > 0)   # 只對有來購買的人做模型(假如有來買的人，會買多少錢?)
mRev = lm(log(Revenue) ~ recent + freq + log(1+money) + senior +
          status + freq0 + log(1+revenue0), dx)  
summary(mRev)   # 判定係數：R2 = 0.713   # 比較取了log（）的R-square
```

```{r fig.height=4.5, fig.width=4.5}
plot(log(dx$Revenue), predict(mRev), col='pink', cex=0.65)
abline(0,1,col='red') 
```

+ Revenue要做線性模時必須log來做
+ 紅線是預測值，粉紅小圈圈是實際值

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n5"></a> 5. 估計顧客終生價值(CLV)

##### 5.1 Y2016的預測值

+ 因為沒有未來的資料，需要把時間往回推一期，也就是使用模型對Y2015年底的資料做預測，對資料   中的每一位顧客，預測她們在Y2016的保留率和購買金額。
```{r}
CX = Y$Y2015
names(CX)[8:9] = c("freq0","revenue0")
CX$ProbRetain = predict(mRet,CX,type='response')   # 預測Y2016保留率
CX$PredRevenue = exp(predict(mRev,CX))   # 預測Y2016購買金額
```

```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(5,3,3,2), cex=0.8)
hist(CX$ProbRetain,main="ProbRetain", ylab="")   #顧客保留率落在0.1左右，這部分代表有些顧客消費並不頻繁
hist(log(CX$PredRevenue,10),main="log(PredRevenue)", ylab="")  #根據直方圖顯示，預測出來的總收益分布與原先的分布情況相似
```
<br>

##### 5.2 估計顧客終生價值(CLV)

<center>顧客$i$的終生價值</center>

$$ V_i = \sum_{t=0}^N g \times m_i \frac{r_i^t}{(1+d)^t} = g \times m_i \sum_{t=0}^N (\frac{r_i}{1+d})^t  $$

<center>

Assume顧客不會永遠忠實，因此採期數計算，由公式得出每個顧客對公司值多少錢：

</center>

<center>$m_i$、$r_i$：顧客$i$的預期(每期)營收貢獻、保留機率</center>

<center>$g$、$d$：公司的(稅前)營業利潤利率、資金成本</center>

```{r}
g = 0.5   # (稅前)獲利率
N = 5     # 期數 = 5
d = 0.1   # 利率 = 10%
CX$CLV = g * CX$PredRevenue * rowSums(sapply(
  0:N, function(i) (CX$ProbRetain/(1+d))^i ) )
summary(CX$CLV)
```

```{r fig.height=2.5, fig.width=7.2}
par(mar=c(3,3,3,1), cex=0.8)
hist(log(CX$CLV,10), xlab="", ylab="")   # CLV是用錢算出來的，所以也是錢，需要用log來算   # 取log後所得的值約為30塊/一顧客
```

##### 5.3 比較各族群的價值

 <a id="g6"></a> 

+ 消費金額高的顧客不少（尾巴長）
+ 新顧客與沉睡顧客的價值差不多
+ 新顧客變成主力顧客的機率不大

```{r}
sapply(CX[,10:12], tapply, CX$status, mean)   # 各族群的平均營收貢獻、保留機率、終生價值
```

+ 新顧客(N1)跟睡著的顧客(S1、S2、S3)所帶給這間店的價值其實差不多

```{r}
par(mar=c(3,3,4,2), cex=0.8)
boxplot(log(CLV)~status, CX, main="CLV by Groups")
```

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n6"></a> 6. 設定行銷策略、規劃行銷工具

<a id="g7"></a> 

首先進行各族群的屬性統整，再設定行銷策略與工具。

+ 屬性分析
    + N1（新顧客）
        + CLV低
        + 人數些微浮動，大體一致
        + 流向S1 > N2 > R1（加總快一半）

    + N2（新潛力顧客）
        + CLV次高
        + 人數稍微有向上趨勢，但2015年又些微減少
        + 流向R2 > R1 > S1（加總一半）

    + R1（主力顧客）
        + CLV普通
        + 人數近年穩定
        + 快一半流向S1

    + R2（核心顧客）
        + CLV最高
        + 人數每年穩定
        + 少數流向R1

    + S1（瞌睡顧客）
        + CLV低
        + 人數稍微變多
        + 一半流向S2
        
    + S2（半睡顧客）
        + CLV低
        + 人數稍為減少
        + 三分之一流向S3

    + S3（沉睡顧客）
        + CLV低
        + 人數逐年上升
        + 大部分維持原地

    + 整體而言，各族群大小差不多
        + 惟S3偏大（介於整體四分到三分之一）
        + S1同N1次大
        + N2, R1與R2差不多
        + S2最少
+ 行銷策略與工具
    + S1, S2, S3正在逐漸擴大且不斷往S3前進，需要抑制此現象，可以藉由一般網路上的行銷工具增
      加品牌形象，或用廣告追蹤的方式，不斷露出與曝光，以增加該族群對品牌的印象。
    + R1也漸漸流失，應推出VIP及客製化等服務加強R1與R2的黏著度，並規劃短期促銷活動吸引其注
      意力，並可以使用的行銷工具，例如LINE+，可以針對主力客戶有專屬行銷方案，同時客戶可以
      用LINE+詢問並方便，業主增加與主力客戶的黏著力，以鞏固主力客戶的忠誠度。
    + 由於N1浮動率太大且無過多價值，不應花費太多時間在這些人身上
    + 但對於N2則不同，他們的CLV很高，但2015年人數卻突然下降，應將精力放在經營N2族群，可以
      透過FB粉絲團的經營方式，定期發送文案，並將品牌深化質感經營，以抓住N2消費者的經營。

 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n7"></a> 7. 選擇行銷對象

給定某一行銷工具的成本和預期效益，選擇可以施行這項工具的對象。 

##### 7.1 對R2族群進行保留
R2族群的預測保留率和購買金額
```{r fig.height=2.5, fig.width=8}
par(mfrow=c(1,2), mar=c(4,3,3,2), cex=0.8)
hist(CX$ProbRetain[CX$status=="R2"],main="ProbRetain",xlab="")
hist(log(CX$PredRevenue[CX$status=="R2"],10),main="PredRevenue",xlab="")
```

##### 7.2 估計預期報酬
假設行銷工具的成本和預期效益為以下（給定假設）

+ 成本：藉由過去經驗所得到之行銷工具成本的假設數值
+ 效益：顧客接受到該行銷工具所產生的購買行為（下一期的購買機率）
```{r}
cost = 10        
effect = 0.75    
```

估計這項行銷工具對每一位R2顧客的預期報酬
```{r}
Target = subset(CX, status=="R2")
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
summary(Target$ExpReturn)   # 因為保留機率（ProbRetain）設定為0.75，即表示＞0.75的族群不能使用這支程式（會導致預期報償為負值）
```
+ 這一項工具對R2顧客的預期報酬是負的，商業數據分析不能用平均值做分析

##### 7.3 選擇行銷對象
但是，我們還是可以從R2中挑出許多預期報酬很大的行銷對象
```{r}
Target %>% arrange(desc(ExpReturn)) %>% select(cid, ExpReturn) %>% head(15)  #找出ExpReturn前15名
```

+ 針對性行銷: 將決定下到每個人身上，而不再是以群體為分析對象，可以得到addition revenue

```{r}
sum(Target$ExpReturn > 0)       # 可實施對象：258
```
在R2之中，有258人的預期報酬大於零，如果對這258人使用這項工具，我們的期望報酬是：
```{r}
sum(Target$ExpReturn[Target$ExpReturn > 0])   # 預期報酬：6464
```

##### <a id="g8"></a> QUIZ:
我們可以算出對所有的族群實施這項工具的期望報酬
```{r}
Target = CX
Target$ExpReturn = (effect - Target$ProbRetain) * Target$PredRevenue - cost
filter(Target, Target$ExpReturn > 0) %>%
  group_by(status) %>% summarise(
    No.Target = n(),
    AvgROI = mean(ExpReturn),
    TotalROI = sum(ExpReturn) ) %>% data.frame
```
這個結果是合理的嗎？ 你想要怎麼修正這項分析的程序呢？

+ 數據顯示對已無多少價值的沉睡顧客S3使用此行銷工具，比對主力顧客R2的預期報酬還好超過20倍，實在不合理
+ 設定行銷工具的成本和效益應隨不同族群與過往經驗而變，當報償矩陣裡面的設定值發生變動後，得到的期望報酬也就不同
+ 可能修正的方向：
    + 新顧客群(N1,N2)：
        + 由前面的觀察，N1族群的價值與S系列族群CLV差不多，他們是一群流動率很高的人，不需花費太多精力或花招去吸引他們，其投資報酬率太低
        + 相對起來，N2是一群很有潛力的族群，我們可以好好發展，培養他們成為主力客群，因此應投入較多的成本，我們預估在這裡的效益不錯，但不能確定多高
    + 主力顧客群(R1,R2)：CLV最高的族群，他們忠實且穩定是我們最想留住並成長的對象，卻開始逐漸出現流失現象，因此應花最多成本在保留他們，增加其黏著度，其投資報酬率可以預見是相當高的。
    + 沉睡顧客群(S1,S2,S3)：對於愈來愈龐大的沉睡顧客，我們很難再喚醒他們，最好的方式是從根本解決(不要讓R系列的流失)，因此對於S系列，我們不打算投入太多成本
    
 <br>
 
[回到目錄](#top)

<br><hr>

### <a id="n8"></a> 8. 結論

如果你只有顧客ID、交易日期、交易金額三個欄位的話，你可以做的分析包括：

+ 全體顧客和每一個顧客分群的：
    + 族群大小與成長趨勢
    + 族群屬性分析：如平均CLV、平均營收貢獻、成長率、毛利率(需要有成本資料)等等
    + 組間流量和平均流動機率

+ 每一個顧客的：
    + 保留率、預期購買金額、終身價值
    + 目前所在群組，以及下一期會轉到個群組的機率
    + 如果有行銷工具的使用紀錄的話，我們也可以估計每一樣行銷工具、對每一位顧客的成功機率

一般而言，這一些分析的結果，足夠讓我們制定顧客發展和顧客保留策略；至於顧客吸收策略，我們通常還需要從CRM撈出顧客個人屬性資料才能做到。 

<br>
 
[回到目錄](#top)

<br><br><hr><br><br><br>

<style>
.caption {
  color: #777;
  margin-top: 10px;
}
p code {
  white-space: inherit;
}
pre {
  word-break: normal;
  word-wrap: normal;
  line-height: 1;
}
pre code {
  white-space: inherit;
}
p,li {
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

.r{
  line-height: 1.2;
}

title{
  color: #cc0000;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

body{
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h1,h2,h3,h4,h5{
  color: #008800;
  font-family: "Trebuchet MS", "微軟正黑體", "Microsoft JhengHei";
}

h3{
  color: #008800;
  background: #e6ffe6;
  line-height: 2;
  font-weight: bold;
}

h5{
  color: #006000;
  background: #f8f8f8;
  line-height: 1.5;
  font-weight: bold;
}

em{
  color: #0000c0;
  background: #f0f0f0;
  }
</style>



請為這篇文章評分?