掌握資料處理最佳程式語言,輕鬆駕馭 Big Data!

為什麼Python是現今當紅程序語言?Python的哲學是「做一件事情有且只有一種方法」,強調簡單理解。目前被應用在許多不同的領域上,Python可以製作網頁、分析資料、建立系統、製作遊戲…等等。

以下文章介紹了Big Data是如何運作Python。

 


以下轉貼自「硬塞的」科技網誌案例研究:掌握資料處理最佳程式語言,輕鬆駕馭 Big Data!,作者為PyCon

 

資料大爆炸時代來臨,發現資料的價值為致勝關鍵

近年來,隨著大數據時代的興起,各行各業都有龐大的數據資料需要被處理,這時贏的關鍵在於誰能有效率的發現大數據的價值。面對大數據不再可怕,可怕的是不知道有什麼利器可以使用!在巨量資料分析上面,Python 有著重要的應用!

CERN 的大型強子對撞機(LHC)是一座位於瑞士日內瓦近郊歐洲核子研究組織的對撞型粒子加速器,研究基本粒子,作為國際高能物理學研究之用。實驗過程中產生珍貴而大量的資料 (Petabytes 級),為了更有效率處理分析這些資料時需要的 13,000 個變數設定,以及減少維護系統困難度,CERN 決定將原本 C++ 的系統改寫成 Python / C++ .得到的結果是許多原本系統無法解決的問題,在新系統中只要一行就可以完成,並且讓沒有受過資訊訓練的物理系學生也能夠輕鬆地使用.整個開發的過程從規劃到完成,只使用了六個月的時間.

“Most developers in the CMS experiment are physics students looking for new physics in the data. Usually they don’t have any formal IT training. Python allows them to be productive from the very start and to dedicate most of their time on the research they want to carry out.”

Benedikt Hegner – CERN

火星計劃的無人探測車能夠在火星表面自主行動,並且完成研究任務.背後依賴大量的叢集電腦(Hybrid Processing Units for Science (HPU4Science) cluster)的支援,來進行電腦視覺需要的影像處理與機械學習。這個叢集大量的使用 Python 語言來運作,包括使用 PyCUDA 控制 GPU。

“Python, for someone who enjoys programming and with a wide-ranging taste for beautiful and powerful languages, is a winning card. It’s really amazing.”

Yann Le Du – Chief Developer at the HPU4Science Project

AppNexus 是現今發展最快的網路廣告公司之一,短短三年從原本的 20 人發展到 350 人,每月處理 390 億的廣告需求。在 2012 年的紐約 PyData 研討會中他們分享 Python 是他們在人員、技術以及環境各方面進行快速開發與擴張時不會陷入泥沼的原因。

“Python is critical to us being able to rapidly iterate while scaling our team and technology”

Dave Himrod, AppNexus

螢幕快照 2014-04-30 下午3.43.01

選擇 Python 進行大資料處理的共通理由:

  • Python 的多面性能同時能夠滿足開發階段的便利性與上線的效能,加速開發的過程。
  • 豐富的資料處理工具如 Pandas、NumPy、IPython。
  • Python 彈性以及互動性的環境讓各種背景的開發者都很容易使用。

Keynote — Rapid Iteration with Python: Scaling AppNexus from PyData onVimeo.

延伸閱讀:

別埋頭苦幹了!掌握熱門套件是通往成功的唯一途徑

談到海量資料分析,從資料收集,資料整理,挑選出需要的資料,到將資料做視覺化的呈現,每一個步驟資料分析者都必須全力投入並且謹慎的執行;如此浩大的工程,善用 Python 豐富的套件可以大幅降低門檻,如果工程師熟悉 Python 資料處理工具,將會大幅度省下時間與人力成本,迅速幫助企業挖掘出大數據中的無限商機。

 

作者介紹

PyCon,亦即 Python 年會,是 Python 社群最大型的年度聚會。PyCon 是社群同好自發籌辦的活動,展現 Python 在各式領域的應用現況。我們致力讓亞太區 Python 年會成為高品質的專業活動,讓與會朋友享受技術交流的樂趣,體驗社群獨有的熱情。

2014 亞太區 Python 年會的特色,除了呈現 Python 在應用領域的案例和實務,也重視與會人員的交流互動,包括促成開發者與廠商之間的合作可能,提供創業者交流討論的園地,達到提昇社群技能和豐富產業發展的目的。

Inside 為 2014 亞太區 Python 年會合作媒體。

 


如何學習Python?

編程入門(1)- Coursera, edX, Udacity

編程入門(2)- 編程訓練營

 

發表迴響