在当今数字驱动的世界中,实时处理数据流是业务成功的必要条件。
5G网络的引入增加了对数据量和速要求,而这些要求给传统的数据架构带来了压力。对吸收数据流量的需求空前增长,同时还要通过跨多个数据流,做出智能且动态的决策来推动执行。
当前的数据流处理体系通常足以结构处理流水线,但它们不能满足应用关键型任务程序的需求,而低延迟和多步响应式决策突出了这些任务型的应用程序需求。
此外,与传统的少数中央枢纽数据中心相反。随着预计每平方公里100万的互联事物密度的增加,以及规定的单位数毫秒的低延迟,数据和处理将通过几个边缘数据中心分散化。
在不完整的信息汇合处,传统的和现代的处理流数据的选择都将失败。为了使交互式低延迟应用程序和流水线管道共存,它们必须使用相同的数据来驱动跨功能的一致性。
信息不完整的前四部分是:
1.微服务架构要求将状态和逻辑分离
缺少的是对业务类型的逻辑以及应该存在的位置的理解。尽管应用程序流控制逻辑可以保留在应用程序层中,从而使计算容器真正变为无状态,但数据业务逻辑必须与存在的数据一起驱动。
2.网络带宽使用效率
当您将状态储存在NoSQL数据存储区中,并且实例容器每次交互都必须移动10至25 KB的数据有效负载时(例如,从存储区读取对象,对它进行修改并将它发送回数据存储),应用程序很快就会开始消耗大量的网络带宽。在虚拟化或容器化的世界中,网络资源就像黄金。人们不应该为了琐碎的数据移动而浪费它。
3.流处理的基本前提
今天的流处理基于时间窗口化概念:事件时间窗口或处理时间窗口之一。这并不代表真正现况。组织需要持续处理事件,无论事件是单独到达还是上下文到达。这种方法将避免诸如错过事件之类的问题,因为它们只会迟到了,而不必膨胀数据库来等待迟到的已知的最后一个事件。
4.交叉轮询多个数据流,以构建驱动决策的复杂事件
事件驱动的体系结构是消息流,每个消息流都与事件相关联,以驱动某些操作。架构面临到的挑战,是从多个数据流中构建复杂的事件,或基于复杂的业务逻辑将单个数据流驱动更改到多个状态。
智能流处理架构可操作:
将传入事件数据吸收到状态机中
从多个摄取流构建上下文实体状态
应用业务规则的规则集来驱动决策
通过迭代地融合从机器学习计划中,获得的新知识来增强和丰富这些规则
让决策传播以推动执行
一旦在实时处理中不需要上下文完成/处理的数据,则将其迁移到档案存储
智能流处理体系结构是由一个用于摄取,处理和存储的统一环境组成。
这种具有内置智能功能的集成方法可以在数据所在的位置进行分析。它利用快速的内存中关系数据处理平台(IMRDPP)不仅使流“变得智能”,而且还提供了线性扩展,可预测的低延迟,严格的ACID以及可在以下位置轻松部署的低得多的硬件空间边缘。
借助聚合,过滤,采样和关联等内置分析功能,以及存储过程/嵌入式受监督和无监督机器学习,可在一个集成平台上获得面向实时决策的流处理的所有要素。
如果您对VoltDB的工业物联网大数据低延迟方案、全生命周期的实时数据平台管理等感兴趣,欢迎私聊,与更多小伙伴一起探讨。