解析分布式应用框架Ray架构源码

日期：2021-09-24 栏目：程序人生浏览：次

摘要：Ray的定位是分布式应用框架，主要目标是使能分布式应用的开发和运行。

Ray是UC Berkeley大学 RISE lab（前AMP lab） 2017年12月开源的新一代分布式应用框架（刚发布的时候定位是高性能分布式计算框架，20年中修改定位为分布式应用框架），通过一套引擎解决复杂场景问题，通过动态计算及状态共享提高效率，实现研发、运行时、容灾一体化

Ray架构解析业务目标

Ray的定位是分布式应用框架，主要目标是使能分布式应用的开发和运行。

业务场景

具体的粗粒度使用场景包括

弹性负载，比如Serverless Computing

机器学习训练，Ray Tune, RLlib, RaySGD提供的训练能力

在线服务，例如Ray Server提供在线学习的案例

数据处理，例如Modin, Dask-On-Ray, MARS-on-Ray

临时计算（例如，并行化Python应用程序，将不同的分布式框架粘合在一起）
Ray的API让开发者可以轻松的在单个分布式应用中组合多个libraries，例如，Ray的tasks和Actors可能会call into 或called from在Ray上运行的分布式训练（e.g. torch.distributed）或者在线服务负载; 在这种场景下,Ray是作为一个“分布式胶水”系统，因为它提供通用API接口并且性能足以支撑许多不同工作负载类型。

系统设计目标

Ray架构设计的核心原则是API的简单性和通用性

Ray的系统的核心目标是性能（低开销和水平可伸缩性）和可靠性。为了达成核心目标，设计过程中需要牺牲一些其他理想的目标，例如简化的系统架构。例如，Ray使用了分布式参考计数和分布式内存之类的组件，这些组件增加了体系结构的复杂性，但是对于性能和可靠性而言却是必需的。

为了提高性能，Ray建立在gRPC之上，并且在许多情况下可以达到或超过gRPC的原始性能。与单独使用gRPC相比，Ray使应用程序更容易利用并行和分布式执行以及分布式内存共享（通过共享内存对象存储）。

为了提高可靠性，Ray的内部协议旨在确保发生故障时的正确性，同时又减少了常见情况的开销。 Ray实施了分布式参考计数协议以确保内存安全，并提供了各种从故障中恢复的选项。

由于Ray使用抽象资源而不是机器来表示计算能力，因此Ray应用程序可以无缝的从便携机环境扩展到群集，而无需更改任何代码。 Ray通过分布式溢出调度程序和对象管理器实现了无缝扩展，而开销却很低。

解析分布式应用框架Ray架构源码

相关推荐