Etu Blog-藍衣人的視界

掌握大數據趨勢,解析消費者意圖

 

Etu 午後對話:資料工程師 X 資料分析師

 

 

為了因應數據浪潮,許多企業開始成立資料科學團隊。面對各種相異的資料,不論是資料型態的結構或非結構化,更多的差異在於不同產業、不同商業模式下產生的資料,企業應該如何處理...

,才能讓資料的運用更有價值。

許多人在引述資料科學團隊時,常使用下圖的概念來描述,可想而知一個資料科學團隊需要多元的角色,而最普遍的就是「資料工程師」與「資料分析師」,他們同時也是最靠近 raw data 的人。

 

具體來說,他們的工作型態是怎麼樣的呢?

 


圖 1.資料科學團隊的組成
(圖片出處:概念取自The Data Science VennDiagram by Drew Conway,Sean Sun 整理)

 

這次很開心邀請到 Etu 團隊成員直接來告訴我們,究竟這群在數據浪潮裡翻滾的人,他們都在做些什麼?

 

資料工程師和資料分析師的對話

包含筆者在內,這次有四位來自不同領域的Etu成員參與討論,就角色而言,恰好分為資料工程師與資料分析師各兩位。

 

問:大家一開始走上資料工程師或分析師的原因?

資料工程師:都是對於分析資料或資料處理有濃厚興趣;我自己是電信背景,為了處理電信龐大的資料,而接觸到 Hadoop ,進而對分散式架構產生興趣。

資料分析師:就讀統計研究所時,同學通常往品保品管深入,但我想要知道資料分析在其他領域的發展,希望可以碰觸到更多不一樣的資料,更多不一樣的分析手法與商業問題。 確實,目前各產業都已開始研究,甚至組織資料科學團隊。

 

問:你們覺得 Data 是什麼?

資料工程師: 是一種資料,須要去定義何謂有用的資訊。像我們資訊工程就是在處理資訊啊,定義有意義的資訊,除去多餘的雜訊,以免拖慢運算資源。另一位工程師補充,資料是可以來解決問題的。

資料分析師: 資料是璞玉,未經雕刻、未經分析,它就是沒有價值的東西。

其實,這也是目前 Big Data 面臨到的挑戰之一:如何賦予資料價值?

資料工程師:目前我主要的角色,是進行專案的架構設計,使用 Hadoop component 來滿足客戶的需求,解決客戶的問題,專注在環境與平台的架設。資料工程師很吃重,因為大量資料下,不想要的雜訊也變得多,需要更多資料清洗的工作。 而另一位工程師補充,「Big Data 應該更廣泛的指不容易處理的資料,就像普遍聽到的 3V (Volume, Velocity, Variety) 定義,大只是其中一環。」

資料分析師: 有種說法,說 Big Data 就是趨近於母體的資料,但我認為不是。當我們要定義母體的時候,會發現我們所擁有的資料其實還不夠。舉例而言,當我們要做電影推薦時,收集到的資料只是某些群體的,我們不可能收集到全世界人的電影喜好資料。

 

問:大家目前正在學習或是熟悉的技術?

資料分析師: 目前在研究推薦演算法、分群、Spark、Deep Learning。

資料工程師: 我在研究 MapReduce、Spark、Hadoop Components 以及系統面的東西。

其實筆者也與其中一位資料工程師, 一起接觸到圖學資料的資料庫,以及圖學分散式運算。身為資料工程師,真的需要不斷學習與接觸許多不同領域。

 

問:你們覺得資料工程師和分析師需要什麼樣的特質呢?

「細心、耐心是很需要的特質」一位資料工程師說,「因為資料都很大,程式執行的時候,遇到錯誤會花費很多時間。溝通能力也是非常重要的,資料工程師經常要跟其他不同的角色溝通。」

 

那麼分析師需要的特質呢?

「敏銳的觀察,願意做各種嘗試。不怕跌倒只怕不敢跑」分析師這樣說。

 

問:你們覺得對方是什麼樣的角色?

資料工程師:很重要的角色。大家都很想做分析師,但好的分析師很難。大家比較不想做工程師,但要成為工程師是比較容易的。
工程師的需求比分析師多,但分析師或工程師,其實不需要分得太細,兩邊對於彼此的領域都應該要有所瞭解,尤其是在 Data Model 要平行化的時候,工程師需要知道模型的內容,而分析師也必須知道平行化的難度與可行性。

 

問: 可否分享實務上有趣的部分?

資料工程師:和分析師一起工作很過癮,學到分析之外,也可以分享分散式資料處理的過程,有一種水乳交融的感覺。

資料分析師: 一起合作的感覺很好,可以很快速的處理軟體上的 bug!尤其當我們遇到軟體底層的困難問題時,通常都需要工程師的火力支援,資料分析師不可能獨力完成,一定是需要團隊合作的。

最後,筆者問資料分析師:對你而言,資料分析是什麼?
「就是用數學、演算法去找出原本看不到和沒發現的東西」

 

那什麼樣的資料會讓你覺得很有趣?
「很多,像是文字處理、社群資料。」分析師回答「在資料維度不多的情況下,透過 Feature Engineering 找出更多資料潛在的特徵,以有限的資料維度萃取出更多有效資訊。」

寫到這,不曉得讀者是否能透過上面的對話,對藍衣人在想的、做的資料工程和資料分析有所瞭解,總結來說

  • 資料分析難以獨自完成,非常需要團隊合作
  • 資料工程師與分析師各有區別,但需要互相合作並了解彼此領域
  • 多元學習是成為工程師或分析師所必須的

當我們回頭去看 Gartner 2015 Hype Cycle,會發現 Big Data 已經不在其中,雖然還是有許多與 Big Data 密切關聯的字眼,不論是物聯網、機器學習,甚至是數據安全性等,可見大數據並不是熱潮已過,而是更著重在實踐於各領域當中。

希望大家都能享受 Data is everywhere 的浪潮,跟我們一起玩 Data ,一起創造 Data 更多的價值。

 

本文作者為 Etu 數據分析師 孫澤恩(Sean Sun)