万亿数据下Hadoop的核心竞争力 (2)

覆盖整个ML:Submarine不仅仅是一个机器学习引擎,它涵盖了整个机器学习过程,例如算法开发、模型批量训练、模型增量训练、模型在线服务和模型管理。

5.Hadoop的核心竞争力在哪?

Hadoop如此受人喜欢,很大程度上取决于用户对大数据存储、管理和分析需求的迫切。大数据是目前很多企业面临的一个挑战,由于数据量的庞大、数据类型的复杂 ,特别是非结构化或者半结构化的数据远远多于结构化的数据,一些传统的基于关系型数据库的存储和分析难以满足时,且关系型数据库巨大成本压力也是很多企业考虑的问题,而Hadoop给人们提供了解决大数据问题的技术手段。

大数据时代需要Hadoop,那么Hadoop的核心竞争力在哪呢?

5.1 降低大数据成本

Hadoop使企业可以高效的管理数据,以降低数据成本,其中包含业务成本、硬件成本、人工成本、存储成本等。通过易用性、权威性、时效性等特性,Hadoop还可以帮助用户增加数据价值。目前Hadoop社区的支持,以及各大Hadoop厂商的支持,使得Hadoop从一个单独的开源软件逐步演变成一个具有一定规模的生态系统,这些厂商包含Cloudera、MapR、Hortonworks等,他们在这一生态系统中扮演着不同的角色,例如有系统厂商、监控服务商、数据分析商等。

而使用者可以从这些厂商中提供的系统来简化Hadoop的学习成本,快速构建符合自身要求的大数据平台,同时合理利用厂商提供的附属组件来开发出高效、易用的的大数据应用。

5.2 成熟的Hadoop生态圈

Hadoop不是一个“孤岛”系统,它拥有成熟的Hadoop生态圈。

万亿数据下Hadoop的核心竞争力

利用Hadoop生态圈设计满足自身需求的方案,需要考虑一些关键要素:

从需求的最终结果开始分析,而不是从可用的工具开始。例如,可用性、一致性等;

对数据处理时效性的评估,例如离线任务(MapReduce、Hive)、实时任务(Flink、Spark Streaming);

尽可能使用成熟的方案。

1.案例一:获取最后一小时的热门链接

将热门链接集中收集,使用Flume将链接发送到Kafka,然后使用Flink或者Spark Streaming计算引擎在1小时的窗口内分析数据,最后将计算后的结果写入到HBase进行存储。

万亿数据下Hadoop的核心竞争力

2.案例二:为用户推荐电影

这是一个实时场景,用户喜欢电影,那么用户应立即看到相关电影。

解决思路:每次用户给出评级时,计算建议都是包含权重的,因此我们应该定期根据现有用户行为计算建议。根据对用户行为的理解,可以为给定用户预测所有电影的推荐,然后对其进行排序,并过滤用户已经开过的内容。

组件选取:数据库可以使用NoSQL数据库,例如HBase。来存储用户评级。计算引擎方面可以选择Flink或者Spark ML通过Oozie定时调度来重新计算用户电影推荐。然后,使用Flume和Spark Streaming用于流式传输和处理实时用户行为。

工作流程:Web服务器将用户评级发送给Flume,后者将其传递给Spark Streaming,然后将结果保存到HBase中。接着,使用Oozie定时调度执行Spark ML应用来重新计算电影推荐并将结果保存到HBase中。

万亿数据下Hadoop的核心竞争力

6.是否一定要选择Hadoop?

与传统数据库系统相比较,开源的Hadoop有自己的优势。尤其是Hadoop既能处理关系型数据库中的结构化数据,也能处理视频、音频、图片等非结构化数据。并且Hadoop还能够根据数据的规模和问题的复杂度轻松的扩展。那是不是一定要用Hadoop?

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpsfpd.html