台灣資料工程師職場觀察 (2024)——資料領域的改變與困境
之前曾經寫過一篇 台灣資料工程師職場觀察與回顧 (2021),而從 2023/04 的月底離職以後我也是陸續有在面試,雖然截至本文發出為止依舊沒有得到合適的機會,不過想說姑且先來寫一篇文章來整理一下這一段時間下來的觀察結果。
就如同我在上一篇文章所提到的其中一個問題,Data 領域從最底層整個 Data Pipeline/System 的 Infrastructure 的維運及管理人員、規劃 Data Warehousing 與 Data Lake 的架構師、各種資料處理流程 ETL Flow 的工程師、視覺化與製作報表的面向的分析師,再到最後可能偏向商務分析或與 Machine Learning 相關的科學家。 其實我認為整體上深度與廣度已經可以比擬一整個 Web 開發領域了。
慣例的免責聲明:因為我幾乎只都過小規模新創公司、團隊,在部份的情境可能會有較大的落差。
資料領域的機會
常態化與正規化
在過去一年的觀察下來發現有許許多多的公司或集團,當跨過數位化的門檻且資料量成長到一定程度以後,建立一個 Data Team 就變成許多公司會認真考慮的選項了。
再加上 Data 領域的架構與工具逐漸成熟化的影響之下,不論是開源的 Apache 系列工具、商業化的雲端平台 AWS、Snowflake 等,使得各種相關職缺的分工相對前幾年變得更加明確化,在徵才網站上也可以較明顯看出該公司目標的人才為何。
因此我認為 “Big Data” 這個概念,應該可以算是穩穩地紮根在資訊領域之中了。
Data Team 的困境
前端、後端、設計、專案管理這四個基礎架構,大概可以套用在絕大多數公司的軟體開發部門。 除了成熟的組織架構之外,亦有許多不同的開發、規劃流程足以參考。
對於開發團隊來說,不論以專案或是職能分組都相對容易組織與運作,但對於許多公司的 Data Team 來說卻並非如此。
畸形的組織架構
以我自身經歷與面試過數十家公司的經驗來看,會發現到 Data Team 所需要接觸到的範圍更加複雜,有需要直接與 CEO 做商務分析甚至一起對外進行商務開發談判的、對內部如財務、營運、開發、行銷等部門、對外部直接與客戶的窗口或負責人直接溝通等等。
整個團隊運作如同膠水一般,同時服務於公司內外各個部門之間。
若是掛在一般開發部門的大主管底下,可能會有過多超出開發部門的工作內容,導致大主管其實也很難協調各種需求與資源。 而若是掛在更高的 CTO 甚至 CEO 底下,雖然相對上層級看似比較合理,但最終結果只有一個——自求多福。
建立 Data Team 的瓶頸
許多企業在嘗試建立 Data Team 時,會遇到最根本的問題其實是完全不足的資訊化。若是連資訊化都無法達成,那想進一步完全就是天方夜譚。
其次是如同我前言所提到的,因資料領域的範圍與牽連實在過廣。一方面是公司究竟願意投入多少資源,另一方面則是有經驗的管理人員過於缺乏,最後也許只找到了幾個組員就開始處理問題,卻始終找不到適任的主管。
最後組員們在過於混亂與繁雜的任務中,如同緩緩窒息至死而痛苦離職,同時公司也煩惱於如何再找人進來接手這些東西。
異常難以量化的產出
明明是做著與 Data 相關的各種事務,但需求往往來自於各種內外部的各種許願。 與產品開發不同,Data Team 的產出常常難以有如同新功能、新頁面等等直觀的方式,有時候也很難用處理了多少張 Ticket 等等形式來表達花費的心力與成果。
若是同時遇上了前述的組織問題,無法有人能參與進來協調與幫忙時,最後就還是會遇到一樣的狀況——自求多福。
資料架構多樣性的需求與挑戰
這是我認為資料領域很有意思的一點,因為在不同領域、不同公司甚至是不同產品中,對於資料架構的需求與挑戰可能會極大程度的截然不同。 不像是一般產品開發選擇一個程式語言、一個 Framework、一個資料庫,就足以應對多數的產品目標。
資料的來源與量級、資料的樣貌與敏感資料問題、對於時效性的要求程度等等,任何一點都會極大程度地影響到資料架構的設計,甚至在開發維護或金錢成本上會有指數性的爆發程度。
公司規模
從最現實的層面來說,台灣這個環境中會需要建立 Data Team,甚至是需要使用到 Machine Learning 技術的公司門檻就在那邊,這也是極大限制了職缺機會的根本因素,大概也是個人層面只能妥協的一點了。
LLM 對於 Data Team 的影響(2024/06/14 新增)
LLM 目前可見的是極度厚實的資本壁壘,除了最頂級的跨國龍頭企業之外幾乎無法參與真正的競爭。
現階段可以看到各種套皮 LLM 的新產品出現,也有許多既有產品在你想得到、想不到的地方加入了 “AI” 功能。 「LLM 狂熱」之下套用 API 與 Prompt 通靈變成了主要的工作內容,可能就與 Data 碰不上關係了,再來是如果連 Pre-trained Model 都沒有使用的情況下,就更別提後續的 Fine-tuning 等等了。 從我個人的觀點來看這對於 Data Team 算是一個偏負面的影響。
在與 Leafwind 大大聊了一下後,他提出了另一個觀點是過往公司對於 AI 的幻想,可能迫使招募進來的 Scientist 必須承擔許多工程方面的工作。 但 LLM 的出現卻是反過來用非常粗暴的方式,打破了許多公司對於打造 AI 的幻想。而後續產品慢慢打磨的過程,可能會慢慢朝著更務實的方面發展,從而更提高對於 Data Engineer 的需求。 他認為市場對於 Data Engineer 的需求還是很大,只是在當前大環境不好的情況下,普遍公司都是處於 Understuff 的狀況。
不是每間公司都能做藥廠的科學研究,或者粒子加速器的科學研究,我想資料科學產業只是需要更多時間理解這件事情,而 LLM 用很暴力的方式告訴大家:「不,你不應該做AI」,加速了這件事情,對產業雇用錯置是一件好事(剩下萬字壞事就不提了)
結語
其實以整體來說,我覺得 Data 相關真的是很好玩的領域,若是克服了多樣化的挑戰以後,不管過程還是解決問題以後都很有意思。
但以我目前求職下來的感想,其實我會很猶豫當初往 Data 這領域一鑽就不回頭的決定,是不是把自己的路越走越窄?又或著是我近年以來因為身心因素等種種狀況,導致我自己的成長無法符合各家公司的期待?
在一年多來投遞與面試過台灣絕大多數 Data Engineer 相關職缺,依舊無法找到一個雙方皆滿意的機會後,要說不感到挫折大概是不可能的事情吧。 如果有人想給小弟一個機會的話,歡迎聯繫我的 LinkedIn,不過個人目前是排除博弈與 Crypto 相關的產業。
最後感謝看到文章結尾的你,若是有什麼感想與看法也歡迎留言分享。`