Hive学习之WordCount单词统计(3)

下面这一步是非常重要的,是考验对HQL的熟练程度,HQL如图:

Hive学习之WordCount单词统计

在这里就涉及到了MR了,HIVE将HQL解析成MR的任务。至此,words表是这样的,如图:

Hive学习之WordCount单词统计

下面就是写HQL来计算了,如图:

Hive学习之WordCount单词统计

上图显示出了我们想要的结果。这里有一天问题,,这里耗时33.723秒,耗时非常的多,如果你在MySql中运行这样的QL,时间是毫秒级的(我测试过),这就解释了,hive是适合大数据的,在小数据量并不具有优势,而且也是离线服务的,在线服务耗时太长,用户无法接受。

BTW:每create一个表,就会在你的HDFS下创建一个文件夹,这个文件夹的名称就是你表的名称,如下图:

Hive学习之WordCount单词统计

看hive目录下就可以了,程序在hdfs里创建一个hive的大文件夹,相当于数据库吧。

上面就是一个完整的利用hive来做单词统计,其中的优劣也能看出一点。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/8c885150eef19a96a6f2c5c8e20a1e59.html