数据科学家经常从大量数据中开发预测学习模型。模型和数据可能需要在学习发生时或随着建模情况的变化而经常更新或修改。此外,科学家可能想改变模型中的一个或多个因素,看看随着时间的推移会发生什么。在 HDFS 中更新存储在文件中的大量数据是资源密集型的,因为每个文件需要被完全重写。在 Kudu,更新发生在近乎实时。科学家可以调整值,重新运行查询,并以秒或分钟而不是几小时或几天刷新图形。此外,批处理或增量算法可以随时在数据上运行,具有接近实时的结果。
Combining Data In Kudu With Legacy Systems(结合 Kudu 与遗留系统的数据)
公司从多个来源生成数据并将其存储在各种系统和格式中。例如,您的一些数据可能存储在 Kudu,一些在传统的 RDBMS 中,一些在 HDFS 中的文件中。您可以使用 Impala 访问和查询所有这些源和格式,而无需更改旧版系统。
安装前提和准备硬件:
一台或者多台机器跑kudu-master。建议跑一个master(无容错机制)、三个master(允许一个节点运行出错)或者五个master(允许两个节点出错)。
一台或者多台机器跑kudu-tserver。当需要使用副本,至少需要三个节点运行kudu-tserver服务。
操作系统(主要是linux系统,windows系统不支持):
存储:
尽量使用固态存储,将显著提高kudu性能。
管理
如果你使用的是CDH,需要Cloudera Manager 5.4.3及以上的版本。
环境说明 安装ntp服务# cat /etc/ntp.conf restrict default kod nomodify notrap nopeer noquery #拒绝IPV4用户 restrict -6 default kod nomodify notrap nopeer noquery #拒绝ipV6用户 restrict 127.0.0.1 restrict -6 ::1 restrict 172.31.217.0 mask 255.255.255.0 nomodify notrap #本地网段授权访问 server 172.31.217.173 #指定上级更新服务器 server 0.centos.pool.ntp.org server 1.centos.pool.ntp.org server 2.centos.pool.ntp.org server 172.31.217.173 # local clock fudge 172.31.217.173 stratum 10 # /etc/init.d/ntpd start 各个节点检查启动成功,否则启动kudu相关服务会报错
安装kudu 安装kudu-master
安装
# yum install kudu kudu-master kudu-client0 kudu-client-devel -y
基本配置
# cat /etc/kudu/conf/master.gflagfile # Do not modify these two lines. If you wish to change these variables, # modify them in /etc/default/kudu-master. --fromenv=rpc_bind_addresses --fromenv=log_dir --fs_wal_dir=/opt/kudu/master --fs_data_dirs=/opt/kudu/master
设置权限
# mkdir /opt/kudu && chown kudu:kudu /opt/kudu
启动
# /etc/init.d/kudu-master start
安装kudu-tserver可以看到所有组件都已安装完毕了。