Hive是什么意思？干嘛用的

2022-03-2615:28:24已關(guān)閉評論

Hive教程

Hive教程是在Hadoop分布式文件系統(tǒng)上使用業(yè)界流行的HiveQL，成為查詢、總結(jié)和分析數(shù)十億或萬億條記錄的專家的踏腳石。本教程使您熟悉該語言的功能和范圍，以便更好地優(yōu)化和處理查詢。使用類似SQL的方言，可以使用簡單的DDL和DML命令編寫查詢，以指定或更改數(shù)據(jù)庫、表或視圖，并對其執(zhí)行操作。本文將重點(diǎn)介紹可以在配置單元上執(zhí)行的各種類型的查詢，以及后端MapReduce作業(yè)的執(zhí)行計(jì)劃。

為什么我們需要學(xué)習(xí)Hive

作為一名數(shù)據(jù)分析師，攪動數(shù)據(jù)（干凈/不干凈）并從中獲得可操作的見解非常重要。通過使用不同的文件格式，例如：Textfile、Sequencefile、Avro、Parquet或ORC（優(yōu)化的行-列），可以高效地處理各種數(shù)據(jù)</李>
Hive就是這樣一種高級語言，它可以更快地匯總數(shù)據(jù)，并支持用戶定義的用于操作字符串、整數(shù)或日期的函數(shù)。這種SQL抽象阻止我們編寫復(fù)雜的Mapreduce作業(yè)</李>
臨時(shí)查詢變得很容易，并且可以對來自外部表的數(shù)據(jù)進(jìn)行操作，而無需將數(shù)據(jù)存儲在HDFS中
Hadoop分發(fā)了文件系統(tǒng)（HDFS），該系統(tǒng)管理如何跨集群存儲數(shù)據(jù)。此外，MapReduce計(jì)算模型有助于將作業(yè)分解為任務(wù)，以便跨服務(wù)器或集群進(jìn)行并行處理</李>

蜂箱的應(yīng)用

作為一個(gè)開源的數(shù)據(jù)倉庫系統(tǒng)，Hive在大數(shù)據(jù)分析和數(shù)據(jù)摘要中得到了應(yīng)用</李>
Hadoop開發(fā)人員也在使用ApacheHive解決Hadoop軟件包（如RHive、RHipe）的復(fù)雜分析問題。甚至Apache Mahout也支持配置單元查詢</李>
分區(qū)和bucketing的概念使數(shù)據(jù)能夠存儲在邏輯部分或段中，從而加快查詢響應(yīng)時(shí)間</李>

Hive還支持許多數(shù)據(jù)科學(xué)應(yīng)用程序，如：

文檔索引
文本挖掘
谷歌分析
情緒分析
預(yù)測建模
日志處理
假設(shè)檢驗(yàn)

先決條件

為了學(xué)習(xí)HiveQL，SQL、Hadoop體系結(jié)構(gòu)和Unix/Linux shell腳本命令的基本知識將很有幫助。理解解決問題的邏輯方法有助于構(gòu)建查詢和ETL作業(yè)。

目標(biāo)受眾

HiveQL教程旨在滿足銀行、零售、保險(xiǎn)等領(lǐng)域的大數(shù)據(jù)專業(yè)人士/工程師和分析師的PB級數(shù)據(jù)分析需求。本教程將幫助Hadoop開發(fā)人員自動化ETL作業(yè)，以總結(jié)Hadoop生態(tài)系統(tǒng)上的大型數(shù)據(jù)集。數(shù)據(jù)庫架構(gòu)師和管理員也可以從這個(gè)全面的教程中學(xué)習(xí)許多概念。