Hive是什么意思?干嘛用的

2022-03-2615:28:24Hive是什么意思?干嘛用的已关闭评论

Hive教程

Hive教程是在Hadoop分布式文件系统上使用业界流行的HiveQL,成为查询、总结和分析数十亿或万亿条记录的专家的踏脚石。本教程使您熟悉该语言的功能和范围,以便更好地优化和处理查询。使用类似SQL的方言,可以使用简单的DDL和DML命令编写查询,以指定或更改数据库、表或视图,并对其执行操作。本文将重点介绍可以在配置单元上执行的各种类型的查询,以及后端MapReduce作业的执行计划。

为什么我们需要学习Hive

  1. 作为一名数据分析师,搅动数据(干净/不干净)并从中获得可操作的见解非常重要。通过使用不同的文件格式,例如:Textfile、Sequencefile、Avro、Parquet或ORC(优化的行-列),可以高效地处理各种数据</李>
  2. Hive就是这样一种高级语言,它可以更快地汇总数据,并支持用户定义的用于操作字符串、整数或日期的函数。这种SQL抽象阻止我们编写复杂的Mapreduce作业</李>
  3. 临时查询变得很容易,并且可以对来自外部表的数据进行操作,而无需将数据存储在HDFS中
  4. Hadoop分发了文件系统(HDFS),该系统管理如何跨集群存储数据。此外,MapReduce计算模型有助于将作业分解为任务,以便跨服务器或集群进行并行处理</李>

蜂箱的应用

  1. 作为一个开源的数据仓库系统,Hive在大数据分析和数据摘要中得到了应用</李>
  2. Hadoop开发人员也在使用ApacheHive解决Hadoop软件包(如RHive、RHipe)的复杂分析问题。甚至Apache Mahout也支持配置单元查询</李>
  3. 分区和bucketing的概念使数据能够存储在逻辑部分或段中,从而加快查询响应时间</李>

Hive还支持许多数据科学应用程序,如:

  • 文档索引
  • 文本挖掘
  • 谷歌分析
  • 情绪分析
  • 预测建模
  • 日志处理
  • 假设检验

先决条件

为了学习HiveQL,SQL、Hadoop体系结构和Unix/Linux shell脚本命令的基本知识将很有帮助。理解解决问题的逻辑方法有助于构建查询和ETL作业。

目标受众

HiveQL教程旨在满足银行、零售、保险等领域的大数据专业人士/工程师和分析师的PB级数据分析需求。本教程将帮助Hadoop开发人员自动化ETL作业,以总结Hadoop生态系统上的大型数据集。数据库架构师和管理员也可以从这个全面的教程中学习许多概念。