Hive是什么意思?干嘛用的

2022-03-2615:28:24Hive是什么意思?干嘛用的已關(guān)閉評論

Hive教程

Hive教程是在Hadoop分布式文件系統(tǒng)上使用業(yè)界流行的HiveQL,成為查詢、總結(jié)和分析數(shù)十億或萬億條記錄的專家的踏腳石。本教程使您熟悉該語言的功能和范圍,以便更好地優(yōu)化和處理查詢。使用類似SQL的方言,可以使用簡單的DDL和DML命令編寫查詢,以指定或更改數(shù)據(jù)庫、表或視圖,并對其執(zhí)行操作。本文將重點介紹可以在配置單元上執(zhí)行的各種類型的查詢,以及后端MapReduce作業(yè)的執(zhí)行計劃。

為什么我們需要學(xué)習(xí)Hive

  1. 作為一名數(shù)據(jù)分析師,攪動數(shù)據(jù)(干凈/不干凈)并從中獲得可操作的見解非常重要。通過使用不同的文件格式,例如:Textfile、Sequencefile、Avro、Parquet或ORC(優(yōu)化的行-列),可以高效地處理各種數(shù)據(jù)</李>
  2. Hive就是這樣一種高級語言,它可以更快地匯總數(shù)據(jù),并支持用戶定義的用于操作字符串、整數(shù)或日期的函數(shù)。這種SQL抽象阻止我們編寫復(fù)雜的Mapreduce作業(yè)</李>
  3. 臨時查詢變得很容易,并且可以對來自外部表的數(shù)據(jù)進行操作,而無需將數(shù)據(jù)存儲在HDFS中
  4. Hadoop分發(fā)了文件系統(tǒng)(HDFS),該系統(tǒng)管理如何跨集群存儲數(shù)據(jù)。此外,MapReduce計算模型有助于將作業(yè)分解為任務(wù),以便跨服務(wù)器或集群進行并行處理</李>

蜂箱的應(yīng)用

  1. 作為一個開源的數(shù)據(jù)倉庫系統(tǒng),Hive在大數(shù)據(jù)分析和數(shù)據(jù)摘要中得到了應(yīng)用</李>
  2. Hadoop開發(fā)人員也在使用ApacheHive解決Hadoop軟件包(如RHive、RHipe)的復(fù)雜分析問題。甚至Apache Mahout也支持配置單元查詢</李>
  3. 分區(qū)和bucketing的概念使數(shù)據(jù)能夠存儲在邏輯部分或段中,從而加快查詢響應(yīng)時間</李>

Hive還支持許多數(shù)據(jù)科學(xué)應(yīng)用程序,如:

  • 文檔索引
  • 文本挖掘
  • 谷歌分析
  • 情緒分析
  • 預(yù)測建模
  • 日志處理
  • 假設(shè)檢驗

先決條件

為了學(xué)習(xí)HiveQL,SQL、Hadoop體系結(jié)構(gòu)和Unix/Linux shell腳本命令的基本知識將很有幫助。理解解決問題的邏輯方法有助于構(gòu)建查詢和ETL作業(yè)。

目標(biāo)受眾

HiveQL教程旨在滿足銀行、零售、保險等領(lǐng)域的大數(shù)據(jù)專業(yè)人士/工程師和分析師的PB級數(shù)據(jù)分析需求。本教程將幫助Hadoop開發(fā)人員自動化ETL作業(yè),以總結(jié)Hadoop生態(tài)系統(tǒng)上的大型數(shù)據(jù)集。數(shù)據(jù)庫架構(gòu)師和管理員也可以從這個全面的教程中學(xué)習(xí)許多概念。