Cloudera : 致力於Hadoop雲端運算的解決方案公司

什麼是Cloudera? 什麼是Hadoop? 可能很多人聽都沒聽過,也許很多人可能聽過,但是卻不知道這是什麼東西,也可能已經很多人研究過,但是始終搞不太懂到底這些東西是個啥東西? 如果説這個Cloudera是Facebook的前工程師跳出來開的公司,而Hadoop則是許多知名網站所使用的分散式雲端運算平台,可能大家會比較了解一些 …

Cloudera這家公司的名稱,可以很清楚的是由Cloud加上era所組成,也就是指雲端年代的意思,是由Jeff Hammerbacher,前Facebook的工程師所創立。

這篇文章"Meet The Engineer Who Built Facebook’s Massive Data Infrastructure“就是訪問Jeff的創業想法。Jeff說在 Facebook 最大的幫助是親手接觸了巨大的資料處理,也就是Petabytes等級的規模(1PB=1000TB)。要讓這麼巨量的資料穩定的運作及分析,跟幾個TB的資料是完全不同的,這種等級是我們無法想像的。

要在網路上處理這種規模的資料,目前比較經常被使用的平台就是Hadoop,而Facebook就是使用Hadoop下的HBase資料庫。

Openfoundry的這篇"Cloudera 釋出 Hadoop 雲端運算散佈套件“就有提到,處理這種大量資料不是成本過高就是技術上太過困難,Cloudera 希望將開放源碼社群的力量帶入此一市場,也就是Cloudera讓企業使用Hadoop的門檻降低了。

相關Hadoop的更多資料可以參考Hadoop台灣網站:  http://www.hadoop.tw/

在Hadoop的平台下,Facebook所使用的大型資料庫HBase就是由Google BigTable來的開放原碼分散資料庫,也就是兩者是系出同門,這篇文章" Understanding HBase and BigTable“則很清楚的說明了BigTable與 HBbase。

但是在這篇文章"HBase: Shops swap MySQL for open source Google mimic“中,可以很清楚看到HBase正被許多企業使用,但是文中也提到HBase還是不能完全取代 MYSQL,所以只有當scale (規模)是重點時,才會使用HBase,當你要把每秒兩萬個事件分散到大量的MYSQL伺服器時是很沒有效率的事情。

以下是Cloudera談到關於Scale的問題:

如果你有興趣的話,可以看看這裡上百部的Cloudera影片:  http://vimeo.com/cloudera/videos

從這些資料的了解,也許你可以更清楚什麼可以稱為雲端運算,並不是把東西搬到網路上而已,而是整個架構都完全顛覆了傳統的資源分配,說得簡單一些就是: 雲端上的東西是可以任意打散,也可以任意再組合,所謂任意打散就是你可以把一個工作打散交給多個資源去處理(例如把一個計算交給一百部電腦去一起處理),而所謂任意組合就是你可以把多個資源當成一個資源使用(例如把一百部電腦當成一台使用),而這些打散跟組合的資源,可能分散在全球各地。

Loading Facebook Comments ...