數據科學家需要的三大核心技能:DATA HACKING、PROBLEM SOLVING AND COMMUNICATION

Data Scientist需要深刻理解需求和問題所在,然後對數據進行處理,採取合理的量化分析尋求答案,所推薦的答案,也必須是backed by data evidence。


以下轉貼自Warald (Email: [email protected])
博客: http://www.1point3acres.com,微博:http://www.weibo.com/warald

Warald認為,以下三類技能是很重要的:

《一》Data Hacking

要有獨立從各種各樣的地方把數據化為己用的能力。可能會用到的:

  1. SQL:用來存儲和查詢structured數據
  2. Programming:比如用Python for parsing/scraping data。如果既會一門scripting language,又會一門compiled/object oriented language,會是優勢。主要是用來處理unstructured數據
  3. Hadoop/parallel processing:你處理的數據可能太大(比如超市過去半年的購物記錄、信用卡公司兩年內的刷卡記錄)無法一次性裝入內存,而你需要對數據進行快速的分析,這就需要MapReduce等技術。

這其中,SQL和Programming是最基本的,你必須會用sql查詢數據、會快速寫程序分析數據。當然,你的編程技術也不需要達到軟體工程師的水平,因為你寫的code大多數只是一次性的、不會被複用,而且也只會被你或者個同事使用,並非放在網上讓無數人點擊,因此對程序質量要求不高。

要想更深入的分析問題,你可能還會用到:

  1. Exploratory analysis skills,可以使用python、R、matlab等各種工具,IT公司用SAS和SPSS相對較少,儘管有些job ads/descriptions里提到了,當然也不是完全不可以。但是如果你只會SAS,那麼選擇無疑要少很多。
  2. Optimization、Simulation:有些職位需要研究顧客需求變化,調整產品或者服務價格,來幫助公司最大化盈利
  3. Machine Learning、Data Mining:比如有人用數據挖掘技術,發現很多人在超市裡買尿布的同時,也買了啤酒 – 現在還沒理解為啥,但是也許尿布和啤酒應該放一起賣;另外比如手機廣告的精準投放。
  4. Modeling:你需要理解不同的統計模型有什麼應用範圍、有什麼限制和特長,我在第一部分里提到的descriptive、predictive、prescriptive三個場景也是淺顯的例子

 

《二》Problem Solving:

你不光要理解what users say they want,你還需要真正的理解what they actually mean、轉化定義出一個可以用數據解決的問題,然後選擇正確的分析工具,量化分析和解決問題。

《三》Communication

數據科學家會跟公司的很多不同部門的人打交道,會比碼農跟更有機會見到高層或者是 business領域的人。如果你希望接觸像市場營銷這樣的部門,希望跟上級領導多多打交道,那你需要有較強的交流能力。你需要知道區分什麼是問題本質、什麼是技術細節,要有能力給上層領導講high level的分析和推薦,有能力給同事講解和defend你的技術細節,也就是」見什麼人說什麼話」,這不是說要你油滑,而是說要知道什麼時候需要隱藏技術細節,而只展現跟聽眾最相關的信息。

你很可能要經常做presentation,需要很強的visualization的能力,熟悉Edward Tufte和Nathan Yau的東西,會很有幫助。另外,也許你很喜歡高深的方法,覺得你懂你NB,但是一切的解決方案,都要從產生business revenue的角度來考慮是否合理。

你也可能需要跟software development team合作,需要講清楚需要他們實現什麼、需要告訴他們什麼地方需要改進。

至於你所從事行業的domain knowledge ,懂最好,不懂也不必強求,某知名公司的VP 曾經跟我說,他這個行業的特有知識,3個月內可以學會,但是數據分析能力,可不是三個月就能學出來的,並且不同行業背後的數據分析能力是普適的。

發表迴響