Hive教程
Hive教程是在Hadoop分布式文件系統(tǒng)上使用業(yè)界流行的HiveQL,成為查詢、總結(jié)和分析數(shù)十億或萬億條記錄的專家的踏腳石。本教程使您熟悉該語言的功能和范圍,以便更好地優(yōu)化和處理查詢。使用類似SQL的方言,可以使用簡單的DDL和DML命令編寫查詢,以指定或更改數(shù)據(jù)庫、表或視圖,并對其執(zhí)行操作。本文將重點介紹可以在配置單元上執(zhí)行的各種類型的查詢,以及后端MapReduce作業(yè)的執(zhí)行計劃。
為什么我們需要學(xué)習(xí)Hive
- 作為一名數(shù)據(jù)分析師,攪動數(shù)據(jù)(干凈/不干凈)并從中獲得可操作的見解非常重要。通過使用不同的文件格式,例如:Textfile、Sequencefile、Avro、Parquet或ORC(優(yōu)化的行-列),可以高效地處理各種數(shù)據(jù)</李>
- Hive就是這樣一種高級語言,它可以更快地匯總數(shù)據(jù),并支持用戶定義的用于操作字符串、整數(shù)或日期的函數(shù)。這種SQL抽象阻止我們編寫復(fù)雜的Mapreduce作業(yè)</李>
- 臨時查詢變得很容易,并且可以對來自外部表的數(shù)據(jù)進行操作,而無需將數(shù)據(jù)存儲在HDFS中
- Hadoop分發(fā)了文件系統(tǒng)(HDFS),該系統(tǒng)管理如何跨集群存儲數(shù)據(jù)。此外,MapReduce計算模型有助于將作業(yè)分解為任務(wù),以便跨服務(wù)器或集群進行并行處理</李>
蜂箱的應(yīng)用
- 作為一個開源的數(shù)據(jù)倉庫系統(tǒng),Hive在大數(shù)據(jù)分析和數(shù)據(jù)摘要中得到了應(yīng)用</李>
- Hadoop開發(fā)人員也在使用ApacheHive解決Hadoop軟件包(如RHive、RHipe)的復(fù)雜分析問題。甚至Apache Mahout也支持配置單元查詢</李>
- 分區(qū)和bucketing的概念使數(shù)據(jù)能夠存儲在邏輯部分或段中,從而加快查詢響應(yīng)時間</李>
Hive還支持許多數(shù)據(jù)科學(xué)應(yīng)用程序,如:
- 文檔索引
- 文本挖掘
- 谷歌分析
- 情緒分析
- 預(yù)測建模
- 日志處理
- 假設(shè)檢驗
先決條件
為了學(xué)習(xí)HiveQL,SQL、Hadoop體系結(jié)構(gòu)和Unix/Linux shell腳本命令的基本知識將很有幫助。理解解決問題的邏輯方法有助于構(gòu)建查詢和ETL作業(yè)。
目標(biāo)受眾
HiveQL教程旨在滿足銀行、零售、保險等領(lǐng)域的大數(shù)據(jù)專業(yè)人士/工程師和分析師的PB級數(shù)據(jù)分析需求。本教程將幫助Hadoop開發(fā)人員自動化ETL作業(yè),以總結(jié)Hadoop生態(tài)系統(tǒng)上的大型數(shù)據(jù)集。數(shù)據(jù)庫架構(gòu)師和管理員也可以從這個全面的教程中學(xué)習(xí)許多概念。
贊 0