立即實踐大數據分析應用!步驟、工具、目標建議一次了解

文章推薦指數: 80 %
投票人數:10人

這次Cloud Ace 除了統整大數據分析應用的常見目標、步驟及工具,還針對不同應用目標歸納出相關建議。

快跟著我們一起用Google Cloud Platform(GCP)實踐大 ... SkiptocontentPostpublished:2022-05-20Postcategory:大數據分析Postcomments:0Comments文章段落大數據分析應用―迷思大數據分析應用―目標現狀分析原因分析預測分析大數據分析應用―步驟資料前處理(ETL)資料儲存資料分析資料視覺化大數據分析應用―建議現狀分析的建議原因分析的建議預測分析的建議大數據分析應用有哪些方向?分析步驟和工具又有哪些?這次CloudAce除了統整大數據分析應用的常見目標、步驟及工具,還針對不同應用目標歸納出相關建議。

快跟著我們一起用GoogleCloudPlatform(GCP)實踐大數據分析應用吧。

大數據分析應用―迷思大數據分析為近年來最熱門的領域之一,隨著運算科技發展、資料量急速成長,和儲存設備成本降低等趨勢,大數據分析已脫離單純的資料處理,進化為協助企業擴展思維及商業模式,並進一步預測未來的工具。

因此,很多一頭熱地跟上這股熱潮的人並不清楚自身的分析需求,縱使已有分析目標,也多面臨不知道或不熟悉該使用哪些工具等問題,導致分析最後無疾而終。

而除了分析目標外,充足的資料量也是不可或缺的要素。

所以,要達成完善且精確的大數據分析,明確的目標和足量的資料是缺一不可的。

圖片來源:pixabay因此本文將主要根據上述應用迷思,提供各位分析資料前需思考的問題,了解當前是否已具備明確的分析目標。

另外也會分享GoogleCloudPlatform(GCP)上有關大數據分析的服務,並針對三大常見應用目標提供解決方案建議。

大數據分析應用―目標大數據分析和一般的資料分析一樣需要一個明確的目標來推動,而若缺乏目標,最後分析的結果不僅可能無法為企業帶來價值,過程中投注的金錢、人力和時間也會付諸流水。

因此CloudAce在此為大家整理出三個資料分析中主要的應用目標類型,讓各位可在著手分析資料前,先確認自身目前的需求,在資料分析的路上少走一些冤枉路。

現狀分析首先,在思考分析目標時如毫無頭緒,可先從現狀分析著手,透過數據了解當前狀況。

現狀分析簡單來說就是單純透過公司歷史資料,了解到過去幾年發生過的事情,並進一步洞察公司現階段整體的營運狀況。

比如我們想知道過去一年公司每個月的利潤,就可藉由繪製利潤走勢圖,查看這一年內公司整體營運狀況是正成長還是負成長。

又比如想了解Q1~Q2產品的銷售狀況,可繪製圓餅圖來查看各項產品的銷售佔比,掌握在Q1及Q2這兩季度內,銷售量最高和最低的產品分別為何。

另外現狀分析也是許多大數據解決方案的基礎(如:全方位顧客輪廓分析),如果有綜合多種分析目標的需求,歡迎進一步參考CloudAce提供的客製化專案開發服務,打造更彈性多樣化的分析專案。

原因分析因為現狀分析只能觀察到整體性的結果,所以想深入了解導致這些結果的原因,就必須進一步做原因分析。

因此所謂的原因分析,就是透過分析可能導致現狀分析結果的因素,去推斷當下整體結果背後的具體原因,協助企業以「治本」的方式解決問題或下決策。

沿用前一段的例子,假設我們透過現狀分析發現公司整體利潤在近一年內下降5%,而利潤因為與公司的營收及營業成本息息相關,所以在執行原因分析時就可藉由分析營收與成本的相關數據,探究導致整體利潤下降的原因為何。

在這個例子中,營收相關數據包含商品價格、銷售量和銷售折扣等;而成本相關數據則有店租、材料價格與員工薪水等。

這些項目在資料集中都應有相對應的欄位,所以分析時可分別從這些欄位下手。

圖片來源:freepik最後,分析結果除了可單純透過折線圖、柱狀圖或圓餅圖呈現,也可兩兩比較,觀察不同數據彼此間是否存在相依性。

假設我們發現產品銷量和人力成本皆與利潤成正比,就可思考在人力成本不變的情況下,利潤降低原因可能是銷量降低。

反之如果銷量不變,則可進一步研究人力成本的哪個因素是影響利潤的主因。

預測分析原因分析可協助企業制定決策,而預測分析則是評估決策的重要工具。

不論是要確保新決策實質上能為公司帶來正面影響,亦或只是單純依據現階段的策略來預測未來(幾秒、幾天或幾年後)的趨勢或行為,預測分析都有其必要性,因為它可用來簡化作業流程、提高收益及降低風險。

舉例來說,倘若我們透過原因分析發現利潤降低的主因是庫存成本提高,那利用預測分析模型預測產品庫存,就更能確保公司針對降低產量(例:從每月生產1,000個滑鼠降至每月生產850個滑鼠)所下的決策是合理且適當的。

又比如公司推出新產品時想預測哪類舊客群購買意願較高,也可透過預測分析篩選出可能會對新產品感興趣的顧客,寄送EDM並附上舊客專屬回饋來更精準地誘導回購。

因此無論是運用統計演算法、預測模型或是機器學習等方式,預測分析都可協助企業更精準地洞見未來、規劃決策,以及挖掘過去不曾注意到的潛在商機。

大數據分析應用―步驟具備分析目標與足量資料後,就可著手準備分析資料了,以下將分別介紹大數據分析的四大步驟:資料前處理、資料儲存、資料分析和資料視覺化。

另外也會同時帶大家了解GCP上有哪些產品可滿足以上四個步驟,以及不同產品的搭配條件有哪些。

資料前處理(ETL)首先,我們最初拿到的資料集通常都是原始資料(RawData),而這些RawData是不能被拿去做任何分析的!因為未經處理的RawData常會有資料格式不正確、不一致、空值很多,或編碼錯誤等問題,也就是所謂的髒數據。

因此,在執行大數據分析時,資料前處理往往會花費許多時間,透過了解整份資料每個欄位所代表的意義,進而根據這些欄位決定該如何處理與清洗,讓整份資料集變成一份可分析的資料,步驟雖然繁瑣但也至關重要。

圖片來源:freepik資料前處理其實就是大家耳熟能詳的ETL(Extract,Transform,Load),在GCP上,除了可單純使用BigQuery,還可再搭配CloudDataflow與CloudPub/Sub。

針對即時資料(StreamingData),資料產生時會觸發CloudPub/Sub並立即透過CloudDataflow加以處理。

而針對批次資料,則可透過外部工具或自行撰寫的排程程式,將資料傳送到CloudStorage(GCS)後,再由CloudDataflow進行資料處理(詳見下圖)。

其中CloudDataflow屬於全代管的資料處理服務,不僅可自動安排資料處理流程、部署及管理資源處理作業,還可藉由水平調度工作站資源,提高資源使用率以符合成本效益。

另外諸如Dataprep、Dataproc和DataFusion,也都是GCP上實用的資料處理工具,下面簡單介紹這三項工具的用途。

首先,Dataprep可透過圖形介面(無需編寫程式碼)瀏覽、清理及準備相關資料(結構化與非結構化資料),也能處理任何規模的資料,自動偵測結構定義、資料類型及異常(如缺值、離群值和重複值),此外還會建議及預測最合適的資料轉換作業。

而Dataproc則像是GCP上的「全代管式」ApacheHadoop、Spark叢集。

最後,DataFusion和Dataprep一樣提供圖形介面,使用者無須編寫程式碼就可部署ETL/ELT資料管道(DataPipeline)。

資料儲存透過GCP完成自動化處理與清洗資料後,就可以將這些乾淨的資料匯入資料倉儲(DataWarehouse)中,也就是ETL中的L(Load)。

有人也許會問,為什麼不直接把RawData放入資料倉儲清洗後再做分析呢?原因其實很簡單,因為資料倉儲主要是存放乾淨、Schema一致(準備被分析)的資料;資料湖(DataLake)才主要用來存放來自不同來源的RawData,保留資料原始格式。

所以資料倉儲基本上只負責分析而不負責清洗。

圖片來源:pixabay在GCP上,GCS及BigQuery是兩大最常用的資料儲存服務。

通常,GCS會被作為DataLake使用;BigQuery則被作為資料倉儲使用。

其中BigQuery屬於無伺服器服務(ServerlessService),不僅容易管理,還具備SQL查詢介面,此外也支援即時(Streamingpipeline)或批次(Batchpipeline)的資料匯入。

想查看更詳細的介紹可以參考《BigQuery是什麼?大資料時代一定要認識的最強資料分析工具》一文。

資料分析有乾淨的資料儲存在資料倉儲後就真的可以開始分析了!如果不是太複雜的分析,可直接利用BigQuery的SQL查詢介面分析資料,或使用標準SQL語法建立或執行機器學習(MechineLearning,ML)模型。

另外,前面提到的資料處理工具Dataflow和Dataproc,也都能作為資料分析的輔助。

Dataflow有即時AI功能,可建構各種智慧解決方案,包含預測分析、異常偵測、即時個人化和其他進階分析用途等。

而Dataproc則可透過ApacheSparkML執行機器學習,或搭配BigQuery進行分析。

圖片來源:pixabay最後,GCP也有推出預測分析所需的相關服務,除了上述所提的BigQueryML,VertexAI與AutoML的搭配也很推薦!因為我們不用會寫Code,就可快速建立與訓練模型。

如要以自訂工具建立ML模型,也能用少少的Code訓練出好模型,使用門檻低之外成效也很顯著。

資料視覺化最後,在資料視覺化上最常使用的就是DataStudio。

易於理解的互動式Dashboard圖像報表讓我們可以在一份報告中即時比較、過濾和組織所需要的確切資料。

另外,DataStudio可連接的資料來源端也很豐富,除了Google本身的BigQuery、CloudSQL和GoogleSheet,也支援AWS的Redshift。

若想了解如何將資料串接DataStudio,可參考《BigQuery串接Googlesheet及DataStudio視覺化功能教學》。

DataStudio介面截圖自:GoogleDataStudio官網|©2022Google大數據分析應用―建議以上分別介紹了大數據分析的目標類型,和GCP上的資料處理工具,但兩者該如何搭配呢?三大分析目標分别適合使用哪些工具?以ETL這個環節為例,即使建立了自動化Datapipeline,但根據分析情境不同,ETL的架構也會大相逕庭。

因此,以下提供大數據分析三大目標建議採用的解決方案,幫助大家在確立目標後,能快速掌握架構雛形和後續可能會用到的工具。

現狀分析的建議以現狀分析這個目標來說,因為需分析的主要都是公司歷史資料(比如:近一年的每月利潤),基本上不會處理到StreamingData,也不會涉及到太複雜的分析語法,所以在資料做完ETL匯入BigQuery後,再透過BigQuery中SQL查詢介面裡的SQL語法分析就可以了。

最後,只要再將結果匯入DataStudio,就能產出折線圖或圓餅圖等視覺化報表。

原因分析的建議而原因分析其實與現狀分析狀況類似,所以也可以單純使用BigQuery分析,再用DataStudio做視覺化圖表。

但因為造成現狀分析結果的因素可能有百百種,像是營收來源和營業成本就各自涵蓋了許多因素,因此在做原因分析時,可能會用到大量的SQL查詢。

而使用BigQuery查詢很容易忽略的盲點就是收費方式,BigQuery的其中一項收費標準是「查詢量」,所以在資料匯入時建議先建好分割表(PartitionedTables),再透過篩選條件(例如:WHERE語法)減少查詢範圍,將查詢量控制到最小,避免帳單出現預期外的高額費用。

預測分析的建議最後,預測分析因為會預測公司未來的利潤趨勢、成長幅度、成本花費和銷量等內容,所以可能會用到機器學習或演算法等工具。

如果預算有限,建議可直接在BigQuery使用BigQueryML,或如果本身熟悉且有在使用Spark,也可以利用Dataproc進行SparkML機器學習,提高數據預測精準度。

以上介紹了大數據分析常見的目標、基本的分析流程和相對應的GCP產品,最後也分享了不同分析目標的解決方案建議。

想更了解如何完整匯入、分析和呈現資料,可參考《如何透過Firebase與BigQuery來進行分析》這篇文章。

有客製化的大數據分析需求,可參考我們的數據分析方案,或直接聯繫我們獲得更多資訊!▋延伸閱讀:・BigQuery是什麼?大數據時代一定要認識的最強資料分析工具・BigQuery教學―操作界面與分析、視覺化步驟完整圖解・BigQuerySQL語法基本操作part1・BigQuery–匯入資料part1・如何掌握GCP各台主機的成本?利用BigQuery的Label語法教學Tags:AutoML,BigQuery,CloudDataflow,CloudPub/Sub,CloudStorage,DataFusion,DataStudio,Dataprep,DataprocReadmorearticlesPreviousPostBigQuery教學―操作界面與分析、視覺化步驟完整圖解NextPostGKEAutopilot教學―輕鬆管理K8s,加快軟體開發流程YouMightAlsoLikeBigQuery資料型態與功能part12020-02-05如何透過Firebase與BigQuery來進行分析2020-04-28如何掌握GCP各台主機的成本?利用BigQuery的Label語法教學2020-05-20發佈留言取消回覆CommentEnteryournameorusernametocommentEnteryouremailaddresstocommentEnteryourwebsiteURL(optional)CloudAce—免費研討會想快速瞭解GCP嗎?現在就報名研討會免費了解吧!每月固定舉辦,由專業講師親自講解,特設Q&A環節,現場回答您所有疑問。

每場研討會名額有限,快來一同進修吧!掌握最新研討會資訊近期文章【GCP資安】4大服務面向與企業常用2大架構以更好上手的機器學習工具,普及化資料分析與洞察雲端搬遷方法有哪些?4大方法滿足常見的企業上雲情境企業為什麼要上雲?上雲前的3大評估點及雲端6大優點GCP資安防護新亮點―以BigQuery保護敏感資料文章分類GCP基本資訊服務介紹費用計算其他雲端基礎架構(Infrastructure)虛擬機器(VM)主機資料備份雲端搬遷網路與網站CDN負載平衡(Loadbalancing)應用程式現代化DevOpsServerless資安與帳號管理大數據分析資料庫AI與機器學習遠距工作工具GoogleWorkspaceGSuite熱門標籤ComputeEngineBigQueryCloudLoadBalancingGoogleKubernetesEngineAccountmanagementCloudSQLVPCNetworkCloudIdentityCloudLoggingCloudIAPCloudStorageDataStudioAnthosAutoMLCI/CD電商、影音媒體平台必了解!聯繫我們



請為這篇文章評分?