hadoop是什么？

2023-03-23 14:09:29 閱讀（110） 評論（0）

　　hadoop應(yīng)歷史之潮流，隨著理論探索、科學(xué)技術(shù)試驗(yàn)的不斷開展，hadoop終于2006年問世，驚天地泣鬼神！

　　hadoop雛形開始于2002年的Apache的Nutch，Nutch是一個開源Java實(shí)現(xiàn)的搜索引擎。它提供了運(yùn)行搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

　　在2003年Google發(fā)表了一篇技術(shù)學(xué)術(shù)論文谷歌文件系統(tǒng)（GFS）。GFS也就是google File System，是google公司為了存儲海量搜索數(shù)據(jù)而設(shè)計(jì)的專用文件系統(tǒng)。

　　2004年Nutch創(chuàng)始人Doug Cutting基于Google的GFS論文實(shí)現(xiàn)了分布式文件存儲系統(tǒng)名為NDFS。

　　2004年Google又發(fā)表了一篇技術(shù)學(xué)術(shù)論文MapReduce。MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行分析運(yùn)算。

　　2005年Doug Cutting又基于MapReduce，在Nutch搜索引擎實(shí)現(xiàn)了該功能。

　　2006年，Yahoo雇用了Doug Cutting，Doug Cutting將NDFS和MapReduce升級命名為Hadoop，Yahoo創(chuàng)建了一個獨(dú)立的團(tuán)隊(duì)給Goug Cutting專門研究發(fā)展Hadoop。不得不說Google和Yahoo對Hadoop的貢獻(xiàn)功不可沒。

　　簡單地說來，Hadoop是一個可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。其核心是HDFS和MapReduce。

　　HDFS（Hadoop Distributed File System，Hadoop分布式文件系統(tǒng)），它是一個高度容錯性的系統(tǒng)，適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序，一句話來概括的話：HDFS更加利于大量數(shù)據(jù)（一般在TB級別）的存取。MapReduce是一套從海量源數(shù)據(jù)提取分析元素最后返回結(jié)果集的編程模型，將文件分布式存儲到硬盤是第一步，而從海量數(shù)據(jù)中提取分析我們需要的內(nèi)容就是MapReduce做的事了，一句話來概括為：MapReduce方便大量數(shù)據(jù)的計(jì)算。

　　關(guān)于大數(shù)據(jù)的意義和價(jià)值，我認(rèn)為最精煉的一句話總結(jié)：大數(shù)據(jù)可以直抵事件真相！互聯(lián)網(wǎng)時代數(shù)據(jù)量逐漸增大，據(jù)說百度一天的搜索頁面量都在TB級別。之前的Apache架構(gòu)，雖然能夠?qū)?shù)據(jù)進(jìn)行計(jì)算和存儲，但是遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)代量級，因此開發(fā)新的專門針對大數(shù)據(jù)處理的技術(shù)十分必要，這也是大數(shù)據(jù)相關(guān)技術(shù)，包括spark、hadoop等出現(xiàn)的背景條件。

　　hadoop技術(shù)發(fā)展到一定程度，可以建立立體化的分析系統(tǒng)，其對象可以為消費(fèi)者或者網(wǎng)站或者app，能夠多角度全方位的分析大量數(shù)據(jù)，從而得出關(guān)于對象的事件真相，可以舉一個例子解釋它的具體表現(xiàn)：未來，可能消費(fèi)者不知道自己喜歡什么，但是大數(shù)據(jù)能夠通過他的歷史行為，告訴他應(yīng)該喜歡什么。

未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明出處

上一篇：什么是大數(shù)據(jù)？本文帶你詳細(xì)了解大數(shù)據(jù)下一篇：什么是云服務(wù)器？一文帶你了解

熱門文章