做了五年大数据开发工程师总结的的大数据学习路线 (2)

为什么说Hive是数据仓库工具,而不是数据库工具呢?有的朋友可能不知道数据仓库,数据仓库是逻辑上的概念,底层使用的是数据库,数据仓库中的数据有这两个特点:最全的历史数据(海量)、相对稳定的;所谓相对稳定,指的是数据仓库不同于业务系统数据库,数据经常会被更新,数据一旦进入数据仓库,很少会被更新和删除,只会被大量查询。而Hive,也是具备这两个特点,因此,Hive适合做海量数据的数据仓库工具,而不是数据库工具。

2.4 安装配置Hive

请参考1.1 和 1.2 完成Hive的安装配置。可以正常进入Hive命令行。

2.5 试试使用Hive

请参考1.1 和 1.2 ,在Hive中创建wordcount表,并运行2.2中的SQL语句。

在Hadoop WEB界面中找到刚才运行的SQL任务。

看SQL查询结果是否和1.4中MapReduce中的结果一致。

2.6 Hive是怎么工作的

明明写的是SQL,为什么Hadoop WEB界面中看到的是MapReduce任务?

2.7 学会Hive的基本命令

创建、删除表;

加载数据到表;

下载Hive表的数据;

请参考1.2,学习更多关于Hive的语法和命令。

如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:

0和Hadoop2.0的区别;

MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数);

HDFS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;

自己会写简单的MapReduce程序,运行出现问题,知道在哪里查看日志;

会写简单的SELECT、WHERE、GROUP BY等SQL语句;

Hive SQL转换成MapReduce的大致流程;

Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;

从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。

此时,你的”大数据平台”是这样的:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwydyw.html