阿里云工程师张献涛深度解析热修复Xen漏洞

  2015 年 3 月,开源软件 Xen 接连发布了 6 个安全漏洞,从 XSA-119 到 XSA-113,称由于 Xen 存在部分漏洞,建议所有相关的服务器进行重启来修复这些漏洞。其中对于公有云业务造成潜在风险最大的漏洞是 3 月 10 号公开的,从理论上来说,这个漏洞会造成个别精心设计的指令提权,从而导致客户数据泄密。

  我们先通过百度百科了解下 Xen 的定义:

Xen 是一个开放源代码虚拟机监视器,由剑桥大学开发。它打算在单个计算机上运行多达 100 个满特征的操作系统。操作系统必须进行显式地修改(“移植”)以在 Xen 上运行(但是提供对用户应用的兼容性)。这使得 Xen 无需特殊硬件支持,就能达到高性能的虚拟化。 

  Xen 在云计算行业为人熟知,由剑桥大学开发。使用者包括亚马逊 EC2、阿里云 ECS、IBM SoftLayer、Linode 及 Rackspace Cloud 等主流厂商。

  目前来看,多数云计算厂商采用了服务器重启的解决方式,但这样将中断云计算服务,使得客户业务无法开展。这个漏洞是什么?通常修复有哪些办法?……另外,国外多数重启、阿里云在公布前已热修复,缘何如此,让我们听一下阿里云资深专家、主导阿里云下一代虚拟化架构的设计与研发工作张献涛博士的回答。

  以下为正文: 

  1. Xen 漏洞是什么?一般会有哪些漏洞类型?此次事件中,Xen 漏洞有哪些?会对服务器带来哪些影响?影响有多深?对用户的业务有哪些影响?

  张献涛:说到 Xen 漏洞,不得不先介绍一下 Xen Hypervisor 项目。Xen 项目是剑桥大学发起的一个开源 Hypervisor 软件,是实现云计算虚拟化的基础,现在被亚马逊、阿里云、rackspace 等公司作为公有云的基础系统软件,承载着全球大部分的公有云计算业务。Xen 安全漏洞是指 Hypervisor 自身出了安全问题,可能会造成数据泄漏风险,漏洞披露由 Xen 安全团队会负责。从披露流程上来说,Xen 安全团队会在公布漏洞前,提前 10-14 天发给全球的关键公司做预披露相关的动作,这些公司都签订了严格的 NDA 协议,以留出时间给这些公司做线上系统安全漏洞的修复,阿里巴巴是国内唯一一家进入 Xen 安全漏洞预披露列表的公司,因此阿里云可以提前得之漏洞的相关信息,然后做相应的安全防范动作,比如重启机器或者热修复漏洞。

  近期 Xen 接连发布了 6 个安全漏洞,从 XSA-119 到 XSA-113,但能对公有云业务造成潜在风险的漏洞只有 3 月 10 号公开的这个,因为从理论上来说,这个漏洞会造成个别精心设计的指令提权,但从目前分析来看,仅仅是理论上的可能,漏洞被利用的难度非常大。但大家也知道,安全问题是一个道高一尺魔高一丈的博弈过程,因此只要是理论上的风险,对于公有云厂商来说,都是必须是要修复的。一旦这个漏洞在公开前不被修复,理论上会造成数据泄漏的潜在风险。

  最后,对于一个庞大的软件系统来说,出安全漏洞是必然的事情,关键是否能否在漏洞被公开前快速修复。这次漏洞波及全球的主流云计算运营商,但负责人的云运营商都会从数据安全角度出发,在漏洞公开前修复掉。

  2. 修复 Xen 漏洞的一般方法有哪些?

  张献涛:Xen 作为一个底层 Hypervisor 软件,为了安全考虑,它被设计成一个安全域。我们知道,如果想修复一个系统软件漏洞,必须能够访问系统软件所用到的内存,否则修复无从谈起。就像我刚刚提到的,Xen Hypervisor 被设计成一个安全域,所谓安全域,它的内存是 Xen 的控制域 Dom0 无法访问的,那么热修复最大的难度就在这里。一旦这个难题解决不了,就不可能最热修复,只能老老实实打上补丁冷重启让补丁生效,比如这次其它厂商采用的修复方法。阿里云在虚拟化方面有比较深厚的技术积累,解决了这个业界难题,实现了热修复,并且这个修复过程采用了极其精细化的设计,让客户的虚拟机彻底无感知,最后的结果也是未造成一台 VM 宕机,未影响用户的业务。因此,从这个角度来看, 修复此类漏洞的方法有两种,冷启动修复和热修复。从对用户影响程度来说,冷启动会造成用户业务数分钟服务不可用,而热修复做到用户业务对修复过程无感知。

  3. 阿里云采用的方法是什么?具体做法的步骤是?是否会对用户产生影响?

  张献涛:就像我刚才谈到的,阿里云采用的是热修复过程,首先,突破了从控制域 Dom0 不能访问 Xen Hypervisor 内存的限制,在确保上层用户业务不受影响的前提下,动态替换 Xen Hypervisor 中有问题的指令。这个过程说起来相对简单,但真正实施起来,过程及其复杂,需要各方面都比较精准的控制。

  4. 阿里云是如何想到热升级的方法?为何其他云服务商不会进行热升级?技术能力不够还是其他原因?热升级需要哪些门槛?

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/cb8294a7bae26cc033061f624d3537ce.html