9 年云原生实践全景揭秘|《阿里巴巴云原生实践 15 讲》正式开放下载 (3)

日期：2022-02-27 栏目：程序人生浏览：次

众所周知，准确的异常发现和快速的问题分析是保证 Kubernetes 集群可用性和稳定性的关键所在。但在整个 Kubernetes 项目中，有着不计其数的监控指标数据。仅以我们的 Kubernetes 集群为例，我们观察到像这样的监控数据每秒钟就会产生几千条。如何合理地利用这些复杂而大量的数据和指标，对它们有效的进行记录和分析，变成简单易懂的可视化展示，变成准确的告警信息，是一个非常有挑战性的工作。

本文将分享阿里巴巴在 Kubernetes 集群监控、审计和巡检方面的实践和经验。谈谈 Kubernetes 与稳定性相关的重要数据和指标，以及如何去理解它们。以案例的形式，具体讲解我们如何对这些数据和指标进行整合与解析，并分享阿里巴巴高效、实时的对这些数据进行自动化巡检与分析的最佳实践。

《使用 Istio 管理跨地域多集群的服务》

职优你是一个电子学习职业发展平台，旨在满足全球学生和在职专业人士的各种需求，并为来自世界多个地区的用户提供服务。这些应用部署于在阿里云的不同区域上的多个 Kubernetes 集群上，以减少不同区域内的服务访问延迟。为了有效地管理这些微服务，需要一个多集群服务网格来控制微服务流量、保证服务到服务通信等。

Istio 是一个建立在 Kubernertes 上的服务网格，可支持多种拓扑来管理多个 Kubernetes 集群上的应用流量统一管理。在整个案例研究中，我们将使用 Istio 服务网格分享多集群流量管理相关的部署设计和技术，并根据底层平台的需求和限制讨论一些挑战和相应的实践。

《首个普惠社区的平民化方案: GPU 共享调度》

越来越多的数据科学家在 Kubernetes 上运行基于 NvidiaGPU 的深度学习任务。与此同时，他们发现集群中的空闲 GPU 浪费了超过 40% 的成本。因此，如何能帮助提高 GPU 使用效率成为一个重要挑战。本文将介绍一款基于原生 Kubernetes 的 GPU 共享解决方案:

如何定义 GPU 共享 API

如何在不更改调度程序裸机代码的情况下在调度 GPU 共享

如何将 GPU 隔离解决方案与 Kubernetes 相集成

我们还将通过演示介绍 Tensorflow 用户如何在 Kubernetes 集群中的同一 GPU 设备上运行不同的作业

《容器运行时管理引擎 Containerd》

本文将从 containerd 架构设计理念出发，向听众分享如何使用插件化能力来增强 containerd，提供不同镜像存储以及强隔离容器运行时的解决方案。同时，还会展示 containerd 同 gVisor, Firecracker 容器运行时集成的演示案例，会让读者更好地理解 containerd 最佳集成方式。

《基于 P2P 原理的高可用高性能大规模镜像分发系统：Dragonfly》

随着容器技术在工业中的应用越来越广泛，如何安全高效地分发映像是工程师们所面临的新挑战。蜻蜓项目是基于开源智能 P2P 的映像和文件分发系统。该项目旨在解决云原生场景中的所有分发问题。目前，蜻蜓项目专注于以下方面：

简单：面向用户的明确定义的 API (HTTP)，对所有容器引擎都无侵入性

高效：CDN 支持、基于 P2P 的文件分发以节省企业带宽

智能：主机检测实现主机层面的速度限制、智能的流量控制

安全：数据块传输加密，HTTPS 连接支持

本文将重点介绍通过蜻蜓分发容器映像。我们将回顾组织面临的挑战，包括大规模分发、安全传输、带宽成本，并提供解决方案。

云原生浪潮滚滚而来，企业纷纷上云。这条路上，阿里巴巴不是踽踽独行。不管是开源回馈社区或是分享最佳案例，希望阿里巴巴在云上的探索，能够为业界提供借鉴意义，共同推动云计算的应用和发展。

转载注明出处：https://www.heiqu.com/zzywxj.html

9 年云原生实践全景揭秘|《阿里巴巴云原生实践 15 讲》正式开放下载 (3)

相关推荐