hadoop是什么?
2023-03-23 14:09:29 閱讀(110)
hadoop應(yīng)歷史之潮流,隨著理論探索、科學(xué)技術(shù)試驗(yàn)的不斷開展,hadoop終于2006年問世,驚天地泣鬼神!
hadoop雛形開始于2002年的Apache的Nutch,Nutch是一個開源Java實(shí)現(xiàn)的搜索引擎。它提供了運(yùn)行搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
在2003年Google發(fā)表了一篇技術(shù)學(xué)術(shù)論文谷歌文件系統(tǒng)(GFS)。GFS也就是google File System,是google公司為了存儲海量搜索數(shù)據(jù)而設(shè)計(jì)的專用文件系統(tǒng)。
2004年Nutch創(chuàng)始人Doug Cutting基于Google的GFS論文實(shí)現(xiàn)了分布式文件存儲系統(tǒng)名為NDFS。
2004年Google又發(fā)表了一篇技術(shù)學(xué)術(shù)論文MapReduce。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行分析運(yùn)算。
2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎實(shí)現(xiàn)了該功能。
2006年,Yahoo雇用了Doug Cutting,Doug Cutting將NDFS和MapReduce升級命名為Hadoop,Yahoo創(chuàng)建了一個獨(dú)立的團(tuán)隊(duì)給Goug Cutting專門研究發(fā)展Hadoop。不得不說Google和Yahoo對Hadoop的貢獻(xiàn)功不可沒。
簡單地說來,Hadoop是一個可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。其核心是HDFS和MapReduce。
HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng)),它是一個高度容錯性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序,一句話來概括的話:HDFS更加利于大量數(shù)據(jù)(一般在TB級別)的存取。MapReduce是一套從海量源數(shù)據(jù)提取分析元素最后返回結(jié)果集的編程模型,將文件分布式存儲到硬盤是第一步,而從海量數(shù)據(jù)中提取分析我們需要的內(nèi)容就是MapReduce做的事了,一句話來概括為:MapReduce方便大量數(shù)據(jù)的計(jì)算。
關(guān)于大數(shù)據(jù)的意義和價(jià)值,我認(rèn)為最精煉的一句話總結(jié):大數(shù)據(jù)可以直抵事件真相!互聯(lián)網(wǎng)時代數(shù)據(jù)量逐漸增大,據(jù)說百度一天的搜索頁面量都在TB級別。之前的Apache架構(gòu),雖然能夠?qū)?shù)據(jù)進(jìn)行計(jì)算和存儲,但是遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)代量級,因此開發(fā)新的專門針對大數(shù)據(jù)處理的技術(shù)十分必要,這也是大數(shù)據(jù)相關(guān)技術(shù),包括spark、hadoop等出現(xiàn)的背景條件。
hadoop技術(shù)發(fā)展到一定程度,可以建立立體化的分析系統(tǒng),其對象可以為消費(fèi)者或者網(wǎng)站或者app,能夠多角度全方位的分析大量數(shù)據(jù),從而得出關(guān)于對象的事件真相,可以舉一個例子解釋它的具體表現(xiàn):未來,可能消費(fèi)者不知道自己喜歡什么,但是大數(shù)據(jù)能夠通過他的歷史行為,告訴他應(yīng)該喜歡什么。