下面这一步是非常重要的,是考验对HQL的熟练程度,HQL如图:
在这里就涉及到了MR了,HIVE将HQL解析成MR的任务。至此,words表是这样的,如图:
下面就是写HQL来计算了,如图:
上图显示出了我们想要的结果。这里有一天问题,,这里耗时33.723秒,耗时非常的多,如果你在MySql中运行这样的QL,时间是毫秒级的(我测试过),这就解释了,hive是适合大数据的,在小数据量并不具有优势,而且也是离线服务的,在线服务耗时太长,用户无法接受。
BTW:每create一个表,就会在你的HDFS下创建一个文件夹,这个文件夹的名称就是你表的名称,如下图:
看hive目录下就可以了,程序在hdfs里创建一个hive的大文件夹,相当于数据库吧。
上面就是一个完整的利用hive来做单词统计,其中的优劣也能看出一点。