首页 > 编程知识 正文

大数据处理与智能分析入门,hive中超大数据量表关联查询

时间:2023-05-03 15:29:35 阅读:142723 作者:3102

Hive是用于在Hadoop中处理结构化数据的数据仓库的基础工具。 它构建在Hadoop之上,总是被归类为大数据,便于查询和分析。 它还提供了简单的sql查询功能,可以将sql语句转换为MapReduce任务并执行这些任务。

术语“大数据”是指包含海量数据、高速数据和日益增长的各种数据的集合的大型数据集。 传统的数据管理系统很难加工大规模的数据。 因此,Apache软件基金会推出了一个名为Hadoop的大数据管理和解决挑战的框架。

Hadoop Hadoop是一个开源框架,用于在分布式环境中存储和处理大数据。 由MapReduce和hadoopdistributedfilesystem (HDFS )两个模块组成。

MapReduce:这是大型集群的典型硬件,是一种可用于处理大型结构化、半结构化和非结构化数据的并行编程模型。

HDFS:Hadoop分布式文件系统是Hadoop框架的一部分,用于存储和处理数据集。 容错文件系统在正常硬件上运行。

Hadoop生态系统包括帮助Hadoop的各种子项目(工具)模块,包括Sqoop、Pig和Hive。

用于在3358www.Sina.com/HDFS和RDBMS之间导入和导出数据。

用于开发3358www.Sina.com/MapReduce操作的脚本程序语言的平台。

用于为33558www.Sina.com/MapReduce操作开发SQL类型脚本的平台。

注:有几种方法可以执行MapReduce操作。

传统方法是使用JavaMapReduce程序创建结构化、半结构化和非结构化数据。 MapReduce的脚本方法使用Pig来处理结构化和半结构化数据。 Hive查询语言(HiveQL或HQL )采用Hive为MapReduce的处理结构化数据。 什么是Hive? Hive是用于在Hadoop中处理结构化数据的数据仓库的基础工具。 它构建在Hadoop之上,总是被归类为大数据,便于查询和分析。

最初,Hive由Facebook开发,后来由Apache软件基金会开发,并作为名义上的Apache Hive成为开源项目。 在各种各样的公司被使用。 例如,亚马逊在亚马逊电子地图上使用了它。

Hive不是关系数据库。 为在线事务处理(OLTP )实时查询和行级更新而设计的语言。 Hiver的特点是存储体系结构存储在一个数据库中,用于处理HDFS中的数据。 是专门为OLAP设计的。 提供名为HiveQL或HQL的SQL类型语言查询。 众所周知,它速度快,可扩展性强,还具有可扩展性。 Hive体系结构下的组件图显示了Hive的结构。

此组件图包含不同的单元。 下表显示了各单元的说明。

设备名称操作用户界面/界面Hive是基于数据仓库的工具软件,用于创建用户与HDFS之间的交互。 用户界面、Hive支持包括Hive的Web UI、Hive命令行和HiveHD洞察(在Windows服务器上)。 元存储器Hive选择各自的数据库服务器以存储表、数据库、列模式或元数据表及其数据类型和HDFS映射。 HiveQL处理引擎HiveQL类似于SQL查询中的Metastore模式信息。 这是用传统方式进行MapReduce程序的替代品之一。 相反,用Java编写的MapReduce程序充当MapReduce,可以处理查询。 执行引擎HiveQL处理引擎和MapReduce的结合部分是Hive执行引擎。 引擎处理查询并生成结果与MapReduce的结果相同。 采用的是MapReduce法。 HDFS或HBASEHadoop的分布式文件系统或HBASE数据存储技术用于将数据存储在文件系统中。 Hive的工作方式下图显示了Hive和Hadoop之间的工作流程。

下表定义了Hive框架和Hadoop框架的交互方式。

Step No .操作1 Sqoop:Hive界面。 在命令行、Web UI发送查询驱动程序、JDBC、ODBC等数据库驱动程序等中执行。

2 Pig:在驱动程序的帮助下研究编译器,分析查询语法和查询计划或查询要求。

3 Hive:编译器将元数据请求发送到任何数据库。

4 Execute QueryMetastore发送元数据以响应编译器。

5 Get Plan编译器将检查请求并将其重新发送到驱动程序。 这样就完成了查询的分析和编译。

6 Get Metadata驱动器发送的执行计划被发送到执行引擎。

7 Send Metadata内部执行工作的流程是MapReduce工作。 引擎将作业发送到作业跟踪器,然后在名称节点中将作业分配给TaskTracker。 这是数据节点。 其中,查询执行MapReduce的工作。

7.1 Send Plan同时,运行时执行引擎可以通过Metastore执行元数据操作。

8 Execute Plan执行引擎从数据节点接收结果。

9 Execute Job执行引擎将这些结果值发送到驱动程序。

10 Metadata Ops驱动器将结果发送到Hive接口。

收到相关视频数据后,可以扫描以下网站的二维码:

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。