如何兼顾效率与隐私,一直以来都是困扰人工智能领域的难题。大数据是人工智能的前提和土壤,人工智能的发展需要大量数据,为了兼顾效率和隐私,联邦学习成为当下最热门的技术研究方向之一。平安科技自主研发的联邦智能平台蜂巢成为了解决当下数据难题与隐私保护的一大利器。
如果将数据比喻成花粉,蜂巢则成为各类花粉的聚集地,这也是平安科技“蜂巢”名字的来历。在蜂巢中,可以利用特定的模型,产出各色的蜂蜜。蜂巢平台正是扮演了这种数据整合与再加工的角色,平台在整个模型训练过程中,将加密的模型梯度和参数进行整合和计算,协助各参与方进行模型优化与迭代。
联邦智能平台蜂巢允许从跨数据所有者分布的数据中构建集合模型,可被广泛应用于各种领域,具有安全性、隐私性、合法性的特点,这样既兼顾了AI的训练也避免了数据泄露的风险。
图1:蜂巢平台功能结构
打破数据孤岛纵横建模成目前最佳捷径
平安科技研发的联邦智能平台蜂巢,是解决企业数据孤岛问题的商用级解决方案。它能够让参与方在不共享原始数据的基础上联合建模,从技术上打破数据孤岛,从而综合化标签数据,丰富用户画像维度,从整体上提升模型的效果,实现 AI 协作。
具体而言,平安科技蜂巢有横向联邦建模和纵向联邦建模两种建模方式。针对相同用户特征的数据,如公司A和公司B,他们都拥有用户的身高、体重、性别等相同的用户特征,但是A和B的客户却是不相同的,A部门的客户群体是30~60岁,B部门的客户群体是20~30岁,这时候就需要采用横向联邦建模,取出相同用户特征而用户不完全相同的数据进行训练。
图2:横向联邦学习
纵向联邦建模针对的是相同用户的数据,但是用户数据维度特征却不一致。比如互联网公司与金融机构,面对同样一位有贷款需求的人,互联网公司能提供用户上网习惯等数据,而银行则拥有用户的征信记录、个人信息等数据,这时候蜂巢则通过纵向联邦建模场景,汇集双方用户特征,增强双方模型的效果。
图3:纵向联邦学习
在实际的数据运用中,即便是同一家公司内的不同子公司或部门,也需要保护数据隐私。以平安集团为例,平安的保险和银行各自拥有不同维度的用户数据,却很难把数据直接合并在一起来做建模。从“蜂巢”最初的架构设计上,平安科技就考虑到平安集团各个业务线与子公司之间存在数据壁垒的问题。同样的“数据不通”也反应在企业与企业、企业与政府之间,每家机构都有自己的数据,而基于隐私保护等原因,企业或政府数据不能对外进行共享。
图4:人工智能中的数据困境
加密运算,让“蜂巢”兼顾隐私保护与使用效率
数据加密是联邦学习的一个重要环节,它能在联邦智能平台保护数据隐私。假设用户的一个数据是数字“12”,经过公钥加密后会变成一个16位的字符串,这是加密最普遍的方式之一。平安科技联邦智能平台蜂巢可以在保护用户隐私的前提下建模,让原始数据不离开用户,建模所交换的是模型的中间参数和梯度,这便能做到最大程度保护用户隐私。同样是数据加密的问题,由于将数据本身复杂化,平台所耗费的计算资源也比原来更大。对此平安科技联邦智能平台蜂巢则采用GPU等异构计算芯片来加速联邦学习的加密和通信过程,从而达到效率升级的效果。
不同行业对于用户数据隐私保护有着不同的加密要求。在银行领域,银保监会建议对数据进行国密加密,对加密的稳定性、安全性、合规性要求更高。而平安科技是国内少见的支持国密级加密的企业平台。平安科技联邦智能平台蜂巢充分支持了国密SM2、国密SM4以及混淆电路、差分隐私和同态加密等不同的加密方式,以满足企业各个业务场景的不同需求。
联邦学习作为一个重要的新技术方向,未来有着广阔的发展空间,正如平安科技副总工程师王健宗所说,蜂巢的目标是打造一个能够自主可控、自主研发的企业级联邦智能平台,赋能人工智能各领域。在实际落地中,在保护数据隐私的前提下进行 AI 协同,无论是底层技术还是整个部署环节,还有大量的挑战需要克服。平安科技联邦智能平台蜂巢,也将不断深耕技术,帮助企业在数据融合及隐私保护上实现进一步突破。