6 大經典的資料分析生命週期(Data analysis life cycle) - Medium

文章推薦指數: 80 %
投票人數:10人

近幾年來,我們幾乎每天都會在日常生活中聽到大數據(Big Data)、數據驅動決策(Data-Driven Decisions)和數據分析(data analysis)這些關鍵字,而其實生活中每項業務確實 ... GetunlimitedaccessOpeninappHomeNotificationsListsStoriesWritePublishedinGirlfriend?No,notreallymyarea.6大經典的資料分析生命週期(Dataanalysislifecycle)近幾年來,我們幾乎每天都會在日常生活中聽到大數據(BigData)、數據驅動決策(Data-DrivenDecisions)和數據分析(dataanalysis)這些關鍵字,而其實生活中每項業務確實都是基於數據所驅動的,我們熟知的Google更是數據驅動分析的代表。

所以妥善利用資料並分析已經成為各個企業經營的核心,那到底什麼是數據驅動?數據驅動決策的流程又是什麼?其實除了大公司之外,我們在每天的生活中也都會因為數據而驅動自己的決定,像是你決定11點就要去買午餐,因為根據過去幾天的觀察,你知道那間好吃的餐廳在12點的時候就會大排長龍,而你的觀察就是數據,因為這些觀察你決定提早買午餐,就是數據所驅動的決策。

那從數據本身到決定策略的中間會經過怎樣的過程呢?這就是我們今天要聊的資料分析生命週期(Dataanalysislifecycle),這樣的週期我們也可以說是步驟,它並沒有一個統一的答案,但大原則都是不變的。

本篇文章中會整理6種不同的資料分析生命週期,它們分別被Google、DELL、SAS、HarvardUniversity等...所提出。

希望能讓大家在未來進行資料分析時有所幫助。

GoogleDataAnalyticsCertificate'sLifeCyclestep1、Ask(詢問)良好的溝通是非常重要的,藉由提出有效的問題完全了解客戶或主管的需求和期待,並清楚定義要解決什麼樣的問題?step2、Prepare(準備)辨別出你需要哪些資料,並且收集、儲存,同時要確保資料是客觀沒有偏頗的。

step3、Process(處理)在這個階段我們要處理資料當中可能造成分析結果有誤的地方,俗稱Datacleansing,或者是轉換、拆分、合併不同的資料以利後面的分析。

step4、Analyze(分析)利用不同的工具或分析方法,從資料中發掘出有用的結論,然後做出預測、協助做出決策...等等。

step5、Share(分享)將分析結果分享給你的老闆、客戶或是夥伴,這時候若利用資料視覺化(datavisualization),會更容易讓大家清楚的了解你的分析結果。

step6、Act(行動)最後也是最激勵人心的步驟,將分析的結果實際應用、解決問題,並協助做出決策或創造新的產品。

TheSAS’sAnalyticsLifeCycleTheanalyticslifecyclefromSAS.step1、Askaquestion定義商業需求。

將業務問題轉換成用數學表示(網站變熱門➡️本月網站流量相較上個月要提高10%)。

step2、Preparethedata收集、儲存、處理資料並將其轉換為model所需的input形式。

這部分往往花費最多的時間。

step3、Explorethedata透過工具找出資料之間的關聯、趨勢和特徵。

從分析的角度解決業務問題。

此過程當中可能會需要添加、刪除或組合新的資料。

step4、Modelthedata利用大量的分析和機器學習(machine-learning)來建立模型和回答業務問題。

從不同模型當中選出最好的。

step5、Implementyourmodels將模型實際應用於解決問題。

模型開發者(modeldevelopers)和其他負責部屬的同仁必須有良好的溝通與合作。

時常發生開發環境與應用環境有落差的情形。

step6、Actonnewinformation結合分析模型與業務上的規則,創造出最好的自動化決策。

根據情況調整並完善模型。

step7、Evaluateyourresults評估模型是否有達到預期的效果(減少成本、增加獲利等)。

根據評估的結果重新調整模型(retraining)。

step1、Askaquestion模型不可能是永遠適用的。

在因素改變後(像是目標客群的轉換...等等),都需要重新建模,因此重新回到step1再次定義問題。

DellEMC’sdataanalysislifecycleDiscoveryPre-processingdataModelplanningModelbuildingCommunicateresultsOperationalize這六個步驟並不是一個個里程碑(完成就往下一步),而是每一個步驟都與下一步息息相關,並且會動態的往前或往後,不斷重複。

同時透過關鍵的問題來確認每一步驟是否確實完成。

Project-baseddataanalyticslifecycleIdentifyingtheproblem:舉例來說,假設有一個電商網站,希望我們協助他們規劃能夠提高獲利的方法,我們就可以先找出網站中最受歡迎的幾個頁面,再根據頁面的類型、內容、流量來源制定提高網站流量以提高獲利的計畫。

2.Designingdatarequirement我們必須根據問題還有目標領域決定如何收集資料,舉例來說,當我們嘗試解決社群媒體相關的問題時,Facebook可能就會是我們的資料來源,為了辨別用戶,我們可能可以收集它的名稱、貼文等等。

3.Preprocessingdata資料來源可能不同,所以需要將其收集、儲存並處理,再將資料轉換為所需的格式。

4.Performinganalyticsoverdata透過適合的工具、演算法和機器學習等方式,從資料中發現有用的資訊以協助做出好的決策。

5.Visualizingdata資料視覺化(Datavisualization)是用來展示分析結果相當好的技能,它有助於老闆、主管和客戶清楚了解你所分析的內容。

Bigdataanalyticslifecycle這個資料分析生命週期是由ThomasErl,WajidKhattak,和PaulBuhler三人所提出,與其他的資料分析週期並沒有太大的不同,它主要是把準備資料(Prepare)和處理資料(Process)的流程切分得更細而已。

HarvardBusiness’sDatalifecycleGeneration:首先資料要先被產生,才會有後續的步驟。

Collection:收集你所需的資料。

Processing:對資料進行處理、壓縮、加密等。

Storage:資料在收集和處理後,必須儲存起來以利未來使用。

Management:對資料進行管理,在項目進行中這是一個持續的過程。

Analysis:利用統計、演算法、機器學習等從資料中發掘有用的資訊。

Visualization:利用圖形來表達你想傳達的資訊。

Interpretation:除了簡單呈現數據外,通過你的專業知識對數據進行解釋,數據可能蘊含怎樣的意義。

結語保持好奇心,客觀的檢視數據並尊重數據呈現的結果,結合專業知識再形成結論,最後解決問題。

希望這些分享能對你有所幫助,我是一個專注於數據科學、機器學習和演算法的研究生,希望能與你一起成長,如果你喜歡這系列的文章請幫我按下拍手(長按可以拍更多喔👏👏),如果有任何意見也歡迎留言討論。

資料來源[1]TheGenesisofEMC’sDataAnalyticsLIfecycle.[2]ManagingtheAnalyticsLIfeCycleforDecisionsatScale.[3]Understandingthedataanalyticsprojectlifecycle.[4]BigDataAdoptionandPlanningConsiderations.[5]8StepsintheDataLifeCycle.[6]GoogleDataAnalyticsCertificateMorefromGirlfriend?No,notreallymyarea.NTHU研究生,試著用輕鬆的語言搭配故事分享機器學習、數據科學、演算法等領域的知識,希望能和你一起成長。

ReadmorefromGirlfriend?No,notreallymyarea.AboutHelpTermsPrivacyGettheMediumappGetstartedTsung-LinTsai3FollowersNTHU研究生,專長為數據分析、演算法與資料結構FollowHelpStatusWritersBlogCareersPrivacyTermsAboutKnowable



請為這篇文章評分?