在 Apache Hive 中轻松生存的12个技巧

日期：2020-06-03 栏目：程序人生浏览：次

Learn to live with Apache Hive in 12 easy steps

Hive 可以让你在 Hadoop 上使用 SQL，但是在分布式系统上优化 SQL 则有所不同。这里是让你可以轻松驾驭 Hive 的12个技巧。

Hive 并不是关系型数据库（RDBMS），但是它大多数时候都表现得像是一个关系型数据库一样，它有表、可以运行 SQL、也支持 JDBC 和 ODBC。

这种表现既有好的一面，也有不好的一面：Hive 并不像关系型数据库那样执行 SQL 查询。我在 Hive 上花费了大量时间，光是我自己在工作中就为了优化它花费了超过80个小时。不说你也知道，我就像呆在蜂巢（Hive）旁边一样脑袋嗡嗡作响。所以，为了让你免受这种痛苦，我决定将它们写出来，以便让你在你的下一个 Hive 项目中逃离这种折磨。

1、不要使用 MapReduce

不管你是不是觉得 Tez、Spark 或 Impala 能行，但是不要指望 MapReduce。它本身就很慢，比 Hive 还慢。如果你用的是 Hortonwork 的版本，你可以在脚本前面写上 set hive.execution.engine=tez ；用 Cloudera 的话，使用 Impala。如果 Impala 不适用的话，我希望到时候可以使用 hive.execution.engine=spark 。

2、不要在 SQL 中做字符串匹配

绝不要，特别是在 Hive 中！如果你坚持要在 WHERE 语句中使用 LIKE 匹配，就会产生一个跨产品的警告。本来你的查询可能只用几秒钟，但是使用字符串匹配的话就会变成几分钟。最好的办法是使用那些可以在 Hadoop 中进行搜索的工具，可以试试 Elasticsearch 的 Hive 集成版本或 Lucidwork 的 Solr，以及 Cloudera Search。关系型数据库这方面表现并不好，但是 Hive 则更糟糕。

3、不要用表连接子查询

你最好创建一个临时表，然后对这个临时表进行连接，而不是让 Hive 自己智能处理子查询。即不要这样做：

select a.*from something a inner join

(select ...from somethingelse union b select ...from anotherthing c) d

on a.key1 = d.key1 and a.key2 = b.key2 where a.condition=1

而是应该这样：

create var_temp as select ...from somethingelse b

union select ...from anotherthing c

andthen

select a.*from something a inner joinfrom var_temp b

where a.key1=b.key1 and a.key2=b.key2 where a.condition=1

一般来说，这会比 Hive 自己处理子查询要快许多。

4、使用 Parquet 或 ORC，但是不要转换使用

也就是说，使用 Parquet 或 ORC 而不要用 TEXTFILE。然而，如果你要把文本数据中导入到更具结构性的数据中，应该做一些转换再导入到目标表中。你不应该用 LOAD DATA 将文本文件加载到 ORC 中，而是应该将其加载到一个文本中。

如果你要创建另外一个表，并最终大多数分析都是对它进行的，那么你就该对该表进行 ORC 化，因为转换到 ORC 或 Parquet 要花费很多时间，并不值得将其放到你的 ETL 处理中。如果你有一个简单的普通文本要导入，也没做过任何优化，你应该将其加载到一个临时表并通过 select create 放到 ORC 或 Parquet 中。不过，这有点慢。

5、开关矢量化试试

转载注明出处：https://www.heiqu.com/7ed1fe37bf6d1770a9602bd4ba73c079.html

在 Apache Hive 中轻松生存的12个技巧

相关推荐