在 Apache Hive 中轻松生存的12个技巧(2)

日期：2020-06-03 栏目：程序人生浏览：次

在你的脚本前面加上 set hive.vectorized.execution.enabled = true 和set hive.vectorized.execution.reduce.enabled = true ，然后试着打开或关闭它们看看。因为最近版本的 Hive 的矢量化有点问题。

6、不要在表连接中使用 structs

我必须承认我大脑里面的 SQL 格式还是 SQL-92 时代的，所以我无论如何都不会想到去用 structs。但是如果你做一些超级复杂的操作，比如在联合主键上使用 ON 语句，那么 structs 就很方便。不幸的是，Hive 对它们很不适应，特别是在 ON 语句上。当然，大多数情况下，在较小的数据集和 yields 下是没错误的。在 Tez 里面，你会得到一个有趣的矢量错误。这个限制并未见于我所知的任何文档，也许这是一个探索你的执行引擎内部的好办法。

7、检查你的容器大小

你也许需要为 Impala 或 Tez 增加你的容器大小。如果有你的节点大小比较大，“推荐的”容器大小可能就不适用于你的系统。你也许需要确保你的 YARN 队列和常规的 YARN 内存大小合适。你也许应该注意默认的队列并不适合所有的常规使用。

8、启用统计

Hive 在表连接时会做一些蠢事，除非启用了统计。你也可以在 Impala 中使用查询提示。

9、考虑 MapJoin 优化

如果你分析你的查询，你可能发现最新的 Hive 已经可以足够智能地进行自动优化了。但是你也许需要再调整一下。

10、如果可以，将大表放到最后

如标题。

11、分区总会帮到你，不管多少

如果你有一个出现在许多地方的东西，比如语句中的日期（但不是日期范围）或重复的地点，你也许应该做分区。分区的基本意思是“拆分到它自己的目录里面”，而不是到一个大的文件中去查找。当你在你的 join/where 语句中仅检索 location=’NC’这样一个小数据集时，Hive 就可以在一个文件中查找。此外，和列值不同，你可以在你的 LOAD DATA 语句中加上分区。另外，要记住，HDFS 并不喜欢小文件。

12、使用哈希进行列比较

如果你要在每个查询中比较同样的10个字段，可以考虑使用 hash() 来比较它们的校验值。在一个输出表中展示它们也许很有用。注意，在 Hive 0.12 中，哈希功能比较差，0.13中的哈希更好一些。

以上就是我的12点经验，我希望这些能够帮到你，让你从 Hive 的嗡嗡声中逃离出来。

Hive编程指南 PDF 中文高清版

基于Hadoop集群的Hive安装

Hive内表和外表的区别

Hadoop + Hive + Map +reduce 集群安装部署

Hive本地独立模式安装

Hive学习之WordCount单词统计

Hive运行架构及配置部署

Hive 的详细介绍：请点这里
Hive 的下载地址：请点这里

转载注明出处：https://www.heiqu.com/7ed1fe37bf6d1770a9602bd4ba73c079.html

在 Apache Hive 中轻松生存的12个技巧(2)

相关推荐