大數(shù)據(jù)和Hadoop簡(jiǎn)介
數(shù)據(jù)每天都呈指數(shù)級(jí)增長(zhǎng),隨著數(shù)據(jù)的增長(zhǎng),需要利用這些數(shù)據(jù)。和以前一樣,我們過(guò)去用軟驅(qū)來(lái)存儲(chǔ)數(shù)據(jù),數(shù)據(jù)傳輸也很慢,但現(xiàn)在,這些都不夠了,云存儲(chǔ)被使用,因?yàn)槲覀冇蠺B的數(shù)據(jù)。當(dāng)今世界,社交媒體對(duì)數(shù)據(jù)增長(zhǎng)的貢獻(xiàn)最大。它包括人們的行為、心態(tài)和其他幾個(gè)方面。據(jù)說(shuō)每分鐘有300小時(shí)的視頻上傳到Y(jié)ouTube上,超過(guò)2000萬(wàn)張照片上傳到Facebook和其他許多網(wǎng)站上。此外,上傳的數(shù)據(jù)沒(méi)有適當(dāng)?shù)慕Y(jié)構(gòu),這是處理這些數(shù)據(jù)的最大挑戰(zhàn)。
隨著海量數(shù)據(jù)的高速生成,傳統(tǒng)的RDBMS系統(tǒng)無(wú)法處理如此快速的增長(zhǎng)。此外,它們也無(wú)法處理非結(jié)構(gòu)化數(shù)據(jù)。處理如此大量快速增長(zhǎng)的異構(gòu)數(shù)據(jù)并以高速處理這些數(shù)據(jù)變得非常困難。因此,需要這樣一個(gè)能夠高效處理大型數(shù)據(jù)集的系統(tǒng)。因此,為了解決這個(gè)問(wèn)題,Hadoop應(yīng)運(yùn)而生。HDFS是Hadoop的組件,通過(guò)使用分布式存儲(chǔ)解決了大型數(shù)據(jù)集的存儲(chǔ)問(wèn)題,而YARN則是解決處理問(wèn)題的組件,大大縮短了處理時(shí)間。
開(kāi)始你的免費(fèi)數(shù)據(jù)科學(xué)課程
Hadoop、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)和;其他
Hadoop是一個(gè)開(kāi)源軟件框架,用于使用分布式大型商用硬件集群存儲(chǔ)和處理大數(shù)據(jù)集。它由Doug Cutting和Michael J.Cavarella開(kāi)發(fā),并在Apache下獲得許可。它是用Java編寫(xiě)的,是基于Google在MapReduce系統(tǒng)上寫(xiě)的論文開(kāi)發(fā)的,它應(yīng)用了函數(shù)式編程的概念。它可靠、經(jīng)濟(jì)、靈活、可擴(kuò)展。
Hadoop的核心組件
核心組件如下所示
HDFS
HDFS或Hadoop分布式文件系統(tǒng)有Namenode和data node。Namenode是運(yùn)行主守護(hù)進(jìn)程的主節(jié)點(diǎn),它管理數(shù)據(jù)節(jié)點(diǎn)并跟蹤所有操作。數(shù)據(jù)節(jié)點(diǎn)是實(shí)際存儲(chǔ)數(shù)據(jù)的從屬節(jié)點(diǎn)。
紗線
紗線由兩個(gè)主要成分組成:
1。ResourceManager:它在主節(jié)點(diǎn)上運(yùn)行,管理所有資源,并調(diào)度所有應(yīng)用程序。它有調(diào)度器&;應(yīng)用程序管理器。
2。NodeManager:它在每個(gè)從屬節(jié)點(diǎn)上運(yùn)行,負(fù)責(zé)管理容器和監(jiān)控資源利用率。
這類(lèi)熱門(mén)課程
Hadoop的幾個(gè)組件
有幾個(gè)組件,如豬、蜂巢、sqoop、水槽、mahout、oozie、zookeeper、HBase等。
- Sqoop–它用于將數(shù)據(jù)從RDBMS導(dǎo)入和導(dǎo)出到Hadoop,反之亦然</李>
- Flume–它用于將實(shí)時(shí)數(shù)據(jù)拉入Hadoop</李>
- 卡夫卡–這是一個(gè)用于路由實(shí)時(shí)數(shù)據(jù)的消息傳遞系統(tǒng)</李>
- Pig–它被用作數(shù)據(jù)處理的腳本語(yǔ)言</李>
- Hive–它是一個(gè)基于HDFS的數(shù)據(jù)倉(cāng)庫(kù)框架,讓熟悉SQL的用戶可以執(zhí)行查詢(xún)以獲取數(shù)據(jù)。這些查詢(xún)稱(chēng)為HiveQL</李>
- Oozie–它用于安排作業(yè)的工作流在指定的事件或時(shí)間上運(yùn)行</李>
- Hbase–它是作為Apache Hadoop的一部分提供的無(wú)SQL數(shù)據(jù)庫(kù)</李>
- Spark–它用于執(zhí)行內(nèi)存處理,比Hadoop map reduce快得多</李>
Hadoop提供者
有很多公司提供Hadoop發(fā)行版。
以下是幾個(gè)最好的供應(yīng)商:
- 克勞德拉
- 霍頓工廠
- MapR
學(xué)習(xí)Hadoop有幾個(gè)先決條件。有Java和腳本語(yǔ)言經(jīng)驗(yàn)者優(yōu)先。盡管它已經(jīng)有了自己的高級(jí)編程語(yǔ)言,比如pig和hive,它們可以生成后端代碼以供進(jìn)一步處理,但仍然可以用Ruby、Python、Perl甚至C編程等任何編程語(yǔ)言創(chuàng)建自己的map reduce程序。
Bigdata和Hadoop在當(dāng)今市場(chǎng)上的需求量很大。在接下來(lái)的幾天里,這將增加更多。很多組織已經(jīng)開(kāi)始使用Hadoop,而那些沒(méi)有使用Hadoop的組織將很快開(kāi)始使用Hadoop。目前有一份報(bào)告稱(chēng),大公司已經(jīng)開(kāi)始投資大數(shù)據(jù)分析。大數(shù)據(jù)營(yíng)銷(xiāo)預(yù)測(cè)總是處于上升趨勢(shì),而且根本不是一種短命狀態(tài)。除此之外,與其他技術(shù)相比,Hadoop和大數(shù)據(jù)領(lǐng)域的工作總是提供高薪。
頂級(jí)大數(shù)據(jù)和Hadoop公司
以下是雇傭人數(shù)最多的幾家頂級(jí)公司:
- 領(lǐng)英
- 雅虎
- 亞馬遜
- 蘇格蘭皇家銀行
- 英國(guó)航空公司
- Expedia
- 沃爾瑪
很多公司都在使用大數(shù)據(jù)應(yīng)用程序。這些是:
諾基亞
它使用Cloudera和Hadoop組件,比如應(yīng)用程序的HDFS、HBase、Sqoop和Scribe。它有效地使用用戶數(shù)據(jù)來(lái)理解和改善用戶體驗(yàn)。它使用數(shù)據(jù)處理和復(fù)雜分析來(lái)構(gòu)建具有預(yù)測(cè)交通和分層高程模型的地圖。
SAS
它與Hadoop合作,通過(guò)提供一個(gè)提供視覺(jué)和交互體驗(yàn)的環(huán)境,幫助數(shù)據(jù)科學(xué)家獲得更好的洞察力,從而幫助探索新趨勢(shì)。分析程序從數(shù)據(jù)中提取有意義的見(jiàn)解,內(nèi)存技術(shù)有助于更快地訪問(wèn)數(shù)據(jù)。
還有很多其他公司使用大數(shù)據(jù)平臺(tái)進(jìn)行各種分析。這些是航空業(yè)黑匣子的飛行數(shù)據(jù)分析,股票市場(chǎng)的差異分析,等等。
Hadoop的優(yōu)勢(shì)
以下是Hadoop的一些優(yōu)點(diǎn):
- 可擴(kuò)展性–與傳統(tǒng)的RDBMS不同,它是一個(gè)高度可擴(kuò)展的平臺(tái),因?yàn)樗梢栽诓⑿羞\(yùn)行的商品硬件上以分布式集群存儲(chǔ)大型數(shù)據(jù)集</李>
- 經(jīng)濟(jì)高效——對(duì)于RDBMS來(lái)說(shuō),存儲(chǔ)數(shù)據(jù)的成本太高,而Hadoop已經(jīng)減輕了這一成本</李>
- 快速靈活——它通過(guò)分布式文件系統(tǒng)提供快速訪問(wèn)數(shù)據(jù)的功能。它還提供從半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中獲取業(yè)務(wù)見(jiàn)解的功能</李>
- 容錯(cuò)——每當(dāng)任何數(shù)據(jù)被發(fā)送到一個(gè)節(jié)點(diǎn)時(shí),相同的數(shù)據(jù)都會(huì)被復(fù)制到其他節(jié)點(diǎn),在第一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí)可以訪問(wèn)這些節(jié)點(diǎn)</李>
總結(jié)——什么是大數(shù)據(jù)和Hadoop
數(shù)據(jù)在不斷增長(zhǎng),因此總是需要大數(shù)據(jù)和Hadoop來(lái)利用這些數(shù)據(jù)。因此,具備Hadoop技能的專(zhuān)業(yè)人士在未來(lái)幾天內(nèi)總能找到大量機(jī)會(huì),并且可以成為推動(dòng)企業(yè)發(fā)展和職業(yè)生涯的重要資產(chǎn)。
推薦文章
這是關(guān)于什么是大數(shù)據(jù)和Hadoop的指南。這里我們討論了大數(shù)據(jù)和Hadoop的基本概念和組件。您還可以閱讀以下文章了解更多信息——