在 IBM Power 服务器上结合使用 SAP HANA 的内存处理能力和 Hadoop 的大数据处理能力。
文中将介绍如何结合 SAP HANA 和 Hortonworks Data Platform (HDP) 的优势来处理数据。使用了一个名为 SAP HANA Spark Controller 的新软件组件来集成 HANA 与 HDP,使 HANA 能访问和处理存储在 HDP Hadoop 集群中的数据。整个处理环境在采用 Linux®且基于 IBM® POWER8® 处理器的服务器上运行。文中将详细介绍测试环境和两种部署模型。安装和配置说明可帮助您设置类似的环境。最后,使用 SAP HANA Studio 测试数据流,验证该环境工作正常。
SAP HANA Spark ControllerSAP HANA Spark Controller 支持 SAP HANA 对作为 Hadoop 分布式文件系统 (HDFS) 数据文件存储在 Hadoop 集群上的数据进行内存访问。Spark Controller 允许 SAP HANA 通过 SQL 接口访问 Hadoop 数据。Spark Controller 主要用于 Spark SQL 并连接到一个现有的 Hive Metastore。参考 SAP HANA Spark Controller 文档了解更多细节。
Spark Controller 执行以下功能:
方便查询的执行,使 SAP HANA 能获取压缩列格式的数据
支持特定于 SAP HANA 的查询优化和安全通信
促进 SAP HANA 和执行器节点之间的数据传输
目标验证和测试的关键目标包括:
测试环境对于测试环境,我们使用了以下软件版本和硬件配置。
SAP HANA Spark Controller 2.1.0-1
它安装在 HDP 集群上。
它只能安装在多节点集群中的一个节点上。它应能访问 Hive Metastore 节点。
对于本测试,它安装在运行 Apache Ambari、Node Manager 和 YARN Resource Manager 的节点上。
HDP 2.6
使用 HDP 2.6 设置一个 4 节点集群。
每个节点都是一个基于 IBM POWER8 处理器的服务器上采用 RHEL 7.2 的虚拟机(或 LPAR)
每个节点都有 4 个虚拟处理器 (vCPU)、32 GB 内存、100 GB 磁盘空间
SAP HANA Studio(客户端)
V2.3.5
Microsoft®Windows® 7 PC
部署测试环境使用了两种独立的部署模型。每个部署环境中都使用了相同的软件和配置;而且测试结果是相同的。
SAP HANA 和 HDP 软件都在自己的独立 IBM POWER8 横向扩展服务器上运行(如图 1 所示)。
SAP HANA 和 HDP 软件都在相同企业 POWER8 纵向扩展服务器上它们自己的独立虚拟机中运行(如图 2 所示)。
图 1 和图 2 描述了用于验证 IBM Power®服务器上运行的 SAP HANA 和 HDP 的两种部署和整体架构。在一个虚拟机 [或者 Power Systems 术语中的逻辑分区 (LPAR)] 上安装和配置 SAS HANA,该虚拟机在基于 IBM POWER8 处理器的服务器上运行 IBM SUSE Linux V12.1 操作系统。在另一个基于 IBM POWER8 处理器的服务器上的 4 个 RHEL 7.2 虚拟机上,安装并配置一个 4 节点 HDP 集群。
在运行 Ambari、Node Manager 和 YARN Resource Manager 的主节点上安装 SAP HANA Spark Controller。但是,Spark Controller 可以安装在一个多节点 HDP 集群中的任意一节点上。它应能访问该 Hive Metastore 节点。
请注意,SAP HANA 的安装和配置对 HDP 集群中的节点数量是透明的。
图 1. 使用 SAP HANA Spark Controller 与 Hortonworks HDP 集成的 SAP HANA 的横向扩展部署模型 图 2. 使用 SAP HANA Spark Controller 与 Hortonworks HDP 集成的 SAP HANA 的纵向扩展部署模型 安装和配置步骤本节介绍 HDP 集群、SAP HANA Spark Controller 和 SAP HANA on Power 系统的安装和配置步骤。
安装 HDP 集群您需要执行以下主要步骤来安装和配置 HDP 集群:
设置测试数据和 Hive 表执行以下步骤来准备测试数据。
下载 MovieLens 数据集(参见参考资料中的介绍)。
按照操作说明,将 MovieLens 数据集数据复制到 HDFS 并设置 Hive 外部表。为它们使用相同的 hive 用户 ID。
下载驱动程序数据并提取到本地文件系统中。
将驱动程序数据复制到 HDFS。
# su – hive # hadoop fs -mkdir -p /user/hive/dataset/drivers # hadoop fs -copyFromLocal /home/np/u0014213/Data/truck_event_text_partition.csv /user/hive/dataset/drivers # hadoop fs -copyFromLocal /home/np/u0014213/Data/drivers.csv /user/hive/dataset/drivers # hadoop fs -ls /user/hive/dataset/drivers Found 2 items -rw-r--r-- 3 hive hdfs 2043 2017-05-21 06:30 /user/hive/dataset/drivers/drivers.csv -rw-r--r-- 3 hive hdfs 2272077 2017-05-21 06:30 /user/hive/dataset/drivers/truck_event_text_partition.csv
为驱动程序数据创建 Hive 表。
# su – hive # hive hive>create database trucks; hive> use trucks; hive> create table drivers (driverId int, name string, ssn bigint, location string, certified string, wageplan string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE TBLPROPERTIES("skip.header.line.count"="1"); hive> create table truck_events (driverId int, truckId int, eventTime string, eventType string, longitude double, latitude double, eventKey string, correlationId bigint, driverName string, routeId int, routeName string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE TBLPROPERTIES("skip.header.line.count"="1"); hive> show tables; OK drivers truck_events
将数据从 HDFS 中的文件加载到这些表中。
hive> LOAD DATA INPATH '/user/hive/dataset/drivers/truck_event_text_partition.csv' overwrite into table truck_events; hive> LOAD DATA INPATH '/user/hive/dataset/drivers/drivers.csv' overwrite into table drivers;
交叉检查这些表,确保在这些表上运行查询可获得这些数据。
安装并配置 SAP HANA执行以下步骤来安装并配置 SAP HANA: