前言

最近会介入数据中台项目，所以会推出一系列的跟大数据相关的组件博客与文档。

Hive这个大数据组件自从Hadoop诞生之日起，便作为Hadoop生态体系（HDFS、MR/YARN、HIVE、HBASE）中极其重要的一员而存在。

Hive是Hadoop生态体系中的分布式数据仓库，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据，拥有如下特点：

天然的分布式数据库，底层存储为HDFS（天然的分布式文件系统）；
数据操作（查询、修改、条件删除）需要额外的计算引擎支持，如：MR、Tez、spark等；(注意这里没有新增，一般是通过数据导入)
虽然数据都是存储在HDFS，但是支持多种不同的数据存储格式，如：Text、SequenceFile、RCFile、avro、parquet、orc，carbondata等；
本身不支持索引功能，不支持时间复杂度非常低的数据结构；
所有操作(查询、修改、条件删除)基本上都是离线的，需要进行全表IO；
只是将数据与表之间建立一种简单的映射关系；
如果用SQL进行数据操作，将SQL转换为计算引擎的执行计划并执行。

Hive的使用场景：

hive 不适用于实时性要求很强的场景，它的查询速度很慢，总体来说是用时间换空间，作为一个大数据的组件，通过它转换文件或者大批量的数据之后进入到Hadoop后续的MapReduce计算引擎去处理数据，可以理解成大数据流程中的前置导入模块。

它还有个有点是离线，离线代表了数据安全，不用联网就能实现数据导入，包括查询、修改也是离线操作。而且它不仅支持数据库表的导入，还支持各种离线文件的数据导入，所以应用面还是很广的，例如日志文件的导入。

支持一次hive转换，多次读取。

优点：

数据完全是存在HDFS之上，数据支持高可用；
因为hive的数据存储几乎只占用磁盘空间(对比HBASE、Elasticsearch等内存消耗大户)，而磁盘又是最廉价的硬件资源，适合来存储海量的全量离线数据集(轻松支持PB、TB量级数据集)；
支持丰富的数据访问接口，如：JDBC，hiveserver以及主流的计算引擎spark、flink、storm等；
支持丰富的SQL语句，Hive SQL 简称： HQL，可根据业务情况定制的UDF函数；

缺点：

如果对数据的要求为：全量、离线、高可用、一次写入多次读取。那么hive一定是非常适合的选择，另外如果想加速你数据处理的效率，可以从以下几个方面来考虑：