Re: [請益] 生涯發展數據/資料工程師- Soft_Job - PTT生活政治八卦
文章推薦指數: 80 %
... 我們有超過1,800個source table 每天大約六十四億筆資料更新,1.1Tb資料在伺服器間往返然後編制...六個人,而且還不能加班現在薪水開到約兩百二十萬 ...
熱門文章
看板查詢
看板
Soft_Job
標題
Re:[請益]生涯發展數據/資料工程師
作者
pelicanper
時間
2021/06/1120:30:04
人氣
推:21
噓:0
留言:69
更多pelicanper文章
相同討論串
返回Soft_Job看板
首頁
Soft_Job
Re:[請益]生涯發展數據/資料工程師
分享給朋友
※引述《joyste0102(Joyce)》之銘言:
:晚安,大家,不好意思有以下生涯發展想請問:
:朋友商管背景,工作大概3年,想轉職Dataanalysis/dataengineering或是偏backend的工作,請問各位轉職大神有什麼建議呢?
:目前有幾個想法是這樣:
:1.不要去考研究所,成本太高也不太需要。
:2.去上線上課程Python跟Database開始測試自己的興趣,然後一路上到datavisualization之類的。
:3.去Bootcamp。
AlphaCamp只有Fullstack似乎不太適合?要去AppWorks?還有其他的嗎?Hahow有什麼好課程推薦嗎?
:另想詢問各位推薦幾件事情:
:1.台灣的線上或是實體課程。
英文程度OK,但還是希望以中文先入手,然後有人可以問可以討論最好。
目前有在上班,現在是淡季可以晚上上線上,不排斥兩三個月後辭職準備。
:2.課程地圖。
想請問自己在家上MOOC的話,應該是怎樣的順序然後才去銜接比方說AppWorks的Bootcamp呢?比較不希望一張白紙就去上,上之前的前期工作要準備好。
所以我才會開Python基本語法然後DB,但是到DataVisualization的中間,還有哪些東西可以上MOOC的呢?
:非常感謝大家的協助,謝謝~
:-----
:SentfromJPTTonmyRealmeRMX2144.
其實看到這篇真的感觸很深,這幾年DS變顯學但是再屌的DS後面都還是傳統的BI
只是現在為了要吸引人來應徵和跟上潮流大家都一定要講DataScience...
我現在剛好就在紐西蘭某一萬五千人的公家機關當DSManager
但是我的部門其實是一個SAS平台從DataWarehouse到Visualisation和Analytics
不管前面的專案用甚麼資料模型,一大堆PhD(PermanentHeadDamage)
都還是要仰賴ETL,然後我們招人頭銜開DataScientist來丟履歷的都可以包山包海
面試前30分鐘丟考卷裡面大概六大類考題,請他們能做多少做多少
每個都寫會R/Python/SAS,做過PowerBI/Tableau,成功的ML專案
然後丟一個輾轉相除法用SAS寫Macro,問為什麼
select*fromainnerjoinbona.id=b.id有問題
來個LeftSkewedBarChart請他們提供更好的視覺化
再來個ConfusionMatrix比較outcome
最後問一個怎麼追蹤量測已經上線的ML
結果...全掛@@
尤其在底層的程式語言和資料倉儲現在有能力的越來越難找
所以回到原PO的問題,其實我到覺得DataBackend非常有搞頭
因為傳統ETL越來越跟不上現代快速大量然後一直變化的需求
從老式DimensionalModelling到後來DataVault到現在都Realtimedatapipeline
要能夠建立維護一個穩定又效率的資料倉儲尤其在像是大企業或是政府機關
真的難度很高,我們有超過1,800個sourcetable
每天大約六十四億筆資料更新,1.1Tb資料在伺服器間往返
然後編制...六個人,而且還不能加班
現在薪水開到約兩百二十萬台幣還真的很難找人(不好意思我們鄉下地方不能跟美國比)
所以有機會進DataBackend的話其實還蠻推薦的哇哈哈~~~
--
※發信站:批踢踢實業坊(ptt.cc),來自:101.100.130.214(紐西蘭)
※文章網址:https://www.ptt.cc/bbs/Soft_Job/M.1623414606.A.E94.html
推lairrol:datasourece量大又要即時搬到哪個領域都是大問題06/1120:34
推kokolotl:一般招DS都是考這類題目嗎06/1120:35
題目是我出的哇哈哈,因為既然每個都包山包海我就甚麼都考...一點
然後專門找上網找不到或是沒有一定答案的
最後一輪前三十分鐘才公布考題,而且題目多到很難全做完
這樣考的人一定會選自己知道得先寫這樣馬上就知道這傢伙大概領域在哪
→lairrol:羨慕這個使用量小弟還沒摸過Tb等級的量...06/1120:36
※編輯:pelicanper(101.100.130.214紐西蘭),06/11/202120:40:56
推kokolotl:原來如此~感謝06/1120:42
推Apache:酷欸06/1121:00
推chocopie:innerjoin考題感覺很有趣06/1121:19
推yoche2000:受教了推06/1121:29
推drajan:這個innerjoin我看不出來哪裡有問題,求教06/1123:14
→drajan:你問的問題需要一個有幾年經驗的ML/Data工程師才回答的出06/1123:15
推x246libra:我也想知道innerjoin有什麼問題,是否還要知道,ab各06/1123:24
→x246libra:別資料才能看出問題?06/1123:24
推everglows:真好奇這樣的問題考得出鑑別度嗎06/1123:24
→everglows:ds面試超難準備很廣又因應不同的面試者會有不同問題06/1123:25
→everglows:之前onsite其中一輪的interivwer只問我電腦配備是什麼06/1123:25
→everglows:怎麼處理記憶體有效使用的問題沒錯就這樣而已06/1123:26
→everglows:老實說問個很偏的題目在否定candidate的實力不是很認06/1123:27
→everglows:同要說實務上會遇到就算了06/1123:27
→everglows:要jrrole就問觀念基礎跟測驗程式能力06/1123:28
→everglows:srrole就直接問實際接觸到的caseorcasestudy06/1123:28
→everglows:到底是要考倒candidate還是知道測試實力?06/1123:29
→everglows:有時候該準備都準備了題也刷了被問到很偏的問題答不06/1123:31
→everglows:出來真的內心很幹Orz06/1123:31
推kokolotl:是不能接受select*嗎,求解06/1123:34
→sextitanic:比較好奇a跟b的id的關係,為何不是a.id=b.a_id06/1200:25
推chocopie:10樓的方向有點接近了06/1200:45
推Nonsense8:1to1relationship?06/1202:33
推wahaha279:如果用id當外鍵,可以重新審視一下為什麼要分兩個table06/1202:47
→wahaha279:。
06/1202:47
推drajan:Starschema吧06/1202:49
沒想到大家對這個innerjoin的問題這麼有興趣
這個問題有兩個角度...
第一個是效率,select*意思就是全部,如果兩個表格都超大
那就要問為什麼一定要如此詳細的資料,譬如說回傳>100G的資料產生的問題
不是CPU或是Memory而是網路頻寬,尤其在企業級的平台即使設備再好
常常瞬間爆量的傳輸量都有可能癱瘓系統,我之前在銀行就發生過兩次
有人用select*fromainnerjoinbona.id=b.id向核心系統發指令
因為回傳量瞬間太大導致核心系統無法回應導致癱瘓網路銀行
第二個角度是從ETL的維護,select*的問題是如果沒有把欄位寫清楚
如果上游加了刪了或改了一個下游沒有在用的欄位就會讓自動化的流程產生錯誤
現在很多ETL都是用軟體像是WherescapeRed,Talend,Informatica等等
現代的ETL軟體大部分可以解決這個問題,因為都用拖拉的
基本上這個問題會出現在使用customquery在某些特定場合
或是在某些程式語言嵌入的SQL
這個select*fromainnerjoinbona.id=b.id
是要看來應徵的有沒有大型企業ETL或是在實務上對資料量與環境的影響夠不夠敏感
尤其是SAS,因為SAS很特別所有的程式都跑在伺服器上不是客戶端
加上因為安全考量我們沒有用雲端,這個部分就會是面試中一個值得注意的眉角
另外補充說明一下...
其實影響面試的面相很多,像廣義的DS真的一兩樣沒有答得很好也不一定會影響結果
而且很多東西是經驗的累積用錯誤和血汗才能換來
到最後都是綜合評比和這個人適不適合這個位置而已
我個人也是從銀行傳統BI然後再新創ML+BI,現在進政府機關一年後當個小主管這樣
當初能被看上是因為技能樹很廣,但是我旁邊那個博士DS就是除了ML其他不插手
所以我的功能現在就是把所有的鳥事攬在身上,這樣下面的就可以專注做目前最重要的
一個團隊要各種不同的人所以沒有甚麼一定是怎樣
這個行業就是這樣,永遠都學不完
共勉之
※編輯:pelicanper(101.100.130.214紐西蘭),06/12/202103:31:23
※編輯:pelicanper(101.100.130.214紐西蘭),06/12/202104:04:51
推expiate:對我來說你比較需要的是dataengineer而不是DS06/1204:19
→pelicanper:就這個innerjoin問題是,但是上面原文就不只這個問題06/1204:37
→pelicanper:只能做DS的DS對我們來說只是一種理想哇哈哈06/1204:38
推Apache:不然找個會DS的DE好了06/1204:40
→pelicanper:來應徵的都說會啊@@還有履歷Web到ML全包的06/1204:44
→pelicanper:我就是看了人資給我ShortList的履歷才決定這樣考06/1204:45
推loveu8:哈看工作內容就真的很有趣,不過人員編制少06/1210:07
→loveu8:真的有時候面臨這麼大資料量要處理時06/1210:07
→loveu8:就會很辛苦去處理06/1210:07
→loveu8:innerjoin會面臨許多問題在於大資料量的狀況下06/1210:07
→loveu8:l.兩個資料的量體是不是太大,大到記憶體都無法放進去06/1210:08
→loveu8:2.就算放進去記憶體裡面,還會面臨過於複雜的運算06/1210:08
→loveu8:可能會有算不出來的狀況06/1210:08
→loveu8:3.若要一定得運算出結果,有時innerjoin06/1210:09
→loveu8:產生資料遺失的部分,該怎麼調整06/1210:09
→loveu8:4.innerjoin有時會改用指定colume+subquery06/1210:10
→loveu8:減少資料的輸出,加快運算結果06/1210:10
→loveu8:5.如果這個join結果是必須常使用,是不是要建立view06/1210:11
→loveu8:給需要的單位去查看06/1210:11
→loveu8:6.資源很重要,每一筆query都是錢,怎樣花費最少的cost06/1210:12
→loveu8:查出想要的結果,正確判斷資料集該用怎麼方式去獲取06/1210:13
→loveu8:7.分析join的必要性,有時需求單位給了一項議題06/1210:14
→loveu8:很多自然會想要利用join去解決問題06/1210:14
→loveu8:但有時資料的乾淨程度與內容很重要06/1210:15
→loveu8:才不會白作工06/1210:15
→loveu8:以上是偶爾協助資料分析的經驗06/1210:16
→loveu8:才會理解這個水很深,不是做完程式就沒事06/1210:16
→loveu8:無時無刻需要調整優化,並回饋真實結果,而改善06/1210:17
→loveu8:真實世界我們面臨問題,進而改善,是這門技術存在之需求06/1210:17
→loveu8:只是想進去的人很多。
在裡面的人說不出裡面的苦06/1210:18
→loveu8:等入門後,大家一起跳坑了XD06/1210:19
推sammythekid:架構上就有問題了,怎麼能夠在onlineservicequery06/1217:36
→sammythekid:loveu8大大講得太中肯。
調整優化回饋結果&改善06/1217:37
→bowin:感謝你的精闢分享。
可惜若沒有對PhD的偏見就更好了06/1222:06
PhD那個就開玩笑,學士BS=BullShit,碩士MS=MoreShit啦哇哈哈
推sammythekid:總之還是感謝分享。
抱歉這樣推文會有誤會。
感謝分享06/1223:54
※編輯:pelicanper(101.100.130.214紐西蘭),06/13/202114:56:19
推endlesswalk:select不能用*取全部欄位是因為有時候會取太多資料回06/1413:51
→endlesswalk:來導致DB爆炸嗎?前公司甚至還規定不能用join(前公06/1413:51
→endlesswalk:司是國內知名大電商)06/1413:51
推yiche:confusionmatrix沒特別背這麼多metric反正要用google都06/2610:25
→yiche:有,這心態參加面試是可以的嗎06/2610:25
分享給朋友
更多pelicanper文章
相同討論串
返回Soft_Job看板
近期熱門文章
633
[新聞]父為遭性侵致死女兒復仇凌虐對方致死判
1482
12/2312:06
Gossiping
更多Aqqqa文章
577
[爆卦]林俊傑最新聲明
1021
12/2221:01
Gossiping
更多zkowntu文章
581
Re:[問卦]年薪不到五十萬的人真的這麼多嗎?
746
12/2320:29
Gossiping
更多bachelorwhc文章
588
[爆卦]蕾神來了
1321
12/2316:48
Gossiping
更多tycp2134文章
480
[問卦]有台電跟動物園關係的卦?
960
12/2312:16
Gossiping
更多XiWen文章
241
[新聞]快訊/民進黨讓步!明提復議總預算退回
943
12/2317:19
Gossiping
更多DoncicInPTT文章
374
[問卦]明年缺電時該怎麼圓場?
728
12/2309:12
Gossiping
更多e1447e文章
448
[新聞]南拳媽媽彈頭點名黑人!批「兄弟出事逃超
824
12/2222:48
Gossiping
更多on2文章
291
[新聞]中國官媒怒揭「蔡英文贏公投伎倆」 用
661
12/2221:44
Gossiping
更多lamigo520文章
411
[新聞]心疼老婆遭影射誹謗 徐若瑄老公「我會保
759
12/2314:32
Gossiping
更多murray文章
Soft_Job熱門文章
7
[推坑]聯發科內推
26
12/2314:03
Soft_Job
更多az30508az文章
2
[徵才]趣聊科技徵安卓/前後端/測試/設計/SEO/
11
12/2216:19
Soft_Job
更多AoShenFengYu文章
3
[徵才]KooBits徵FlutterDeveloper
19
12/2315:01
Soft_Job
更多lutas文章
3
[請益]offer請益(Garena/tsmc)
4
12/2400:12
Soft_Job
更多SIGNAL2017文章
延伸文章資訊
- 1資料分析師?科學家?架構師?大數據人才的工作內容及年薪比較
美國的公司通常給CIO 的薪水從$81,226 起跳至$269,033 美元不等,中間值是$142,269 美元。 你可能也聽過資料工程師(Data engineers)、大數據分析 ...
- 2AI人工智慧,資料科學- 相關工作與未來前景
104分析資料庫中1,575筆AI相關工作經歷,. • 其中,被譽為「21世紀最性感職業」的資料科學家,平. 均年薪122萬,是AI人才薪水最頂尖的職務;. • 其次是演算法工程師, ...
- 3大資料工程師薪資在什麼水平? - Toments 找話題
目前長期從事資料庫管理、挖掘、程式設計工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過資料來進行判斷決策的管理者,比如某些領域的 ...
- 4Re: [請益] 生涯發展數據/資料工程師- Soft_Job - PTT生活政治八卦
... 我們有超過1,800個source table 每天大約六十四億筆資料更新,1.1Tb資料在伺服器間往返然後編制...六個人,而且還不能加班現在薪水開到約兩百二十萬 ...
- 5「資料工程師」找工作職缺-2021年12月|104人力銀行
科技工具輔助,業界首創彈性8小時! 12/22. 資料工程師Data Engineer. 天堂遊戲有限公司. 月薪 ...