大数据及人工智能飞速发展的今天,法律法规和信任问题严重阻碍了企业之间的数据流通,数据孤岛问题像一只无形的手挡在了企业之间,因为缺乏有价值的数据合作,各行业用户获取成本居高不下。为了满足企业间数据安全共享、释放数据价值,助力业务创新,腾讯“神盾-联邦计算”平台应运而生!
面向数据安全与隐私保护的多方计算技术研究最早可追溯到上世纪70年代,而新兴的联邦学习概念在国内从2019年开始蓬勃发展。
“神盾-联邦计算”平台的成型也正是这个时期,经过2-3个月系统评测、安全算法评测及现场答辩,2019年12月“神盾-联邦计算”代表腾讯获得了信通院颁发的基于多方安全计算的数据流通产品证书,全国首批获得该证书的团队只有5家。目前神盾正在主导信通院联邦学习标准制定。
腾讯“神盾-联邦计算”平台应运而生大数据及人工智能飞速发展的今天,法律法规和信任问题严重阻碍了企业之间的数据流通,数据孤岛问题像一只无形的手挡在了企业之间,因为缺乏有价值的数据合作,各行业用户获取成本居高不下,银行信用卡不良用户占比全面上升,金融信贷审核成本陡增,AI发展也遭遇前所未有的瓶颈,为了让这些企业在合法合规、安全、高效无损的基础上进行数据合作,腾讯“神盾-联邦计算”平台应运而生!
这是一个主要基于联邦学习、多方安全计算(MPC)、区块链、可信计算等安全技术的分布式计算平台,产品针对机器学习算法进行定制化的隐私保护改造,保证数据不出本地即可完成联合建模,最大化各个合作企业的数据价值:
根据合作双方的实际场景需求,其上层可以覆盖风控、营销、推荐、AI等主流业务,同时“神盾-联邦计算”也将扮演业务与数据之间桥梁的角色,撮合有数据需求的业务方和有价值变现的数据方之间展开合作。
产品首先在联合建模的数据格式规范、安全求交、特征工程、算法参数调试等细节进行了细致的打磨,然后在处于联邦底层核心地位的数据安全与隐私保护技术相关领域做了深入的基础研究,取得了多项突破性的成就,处于行业领先地位。
这其中包含非对称联邦概念的首创及落地、安全信息检索方案的首创及落地 ,涵盖同态加密、不经意传输、隐私集合求交在内的多项MPC技术的创新及应用、主流联邦学习协议的效率优化、精度提升及可信中间方的剥离改造、单向联邦网络策略的推进等,下面将简要介绍其中几项重要突破。
首创非对称联邦学习框架在纵向联邦学习的标准流程中,两个跨特征的参与方需要执行以下两个操作:
1. ID对齐主要依托隐私求交 [2,3] (Private Set Intersection, PSI) 技术 ,在各参与方处输出所有输入的样本ID集合的交集。
2. 加密模型训练各参与方以前文提到的输出交集为基础,计算、通信基于原始数据集计算的加密中间变量。
在前沿的联邦学习圈,大量的研究工作投入到加密模型训练中,包括新联邦协议的设计[4]、联邦通信机制的优化[5, 6]、联邦激励系统的设计[7],却鲜有对 ID对齐的系统性研究。
实际的纵向联邦学习的场景中,我们发现,往往其中一方的ID集合较少,并且具有较强的业务属性,是ID拥有方希望保护的信息。但是ID较少的参与方却不得不在ID对齐操作中暴露出这些ID,显得较为“弱势”。
例如,联盟中的信贷公司为了实现风控预测,需要将其客户的违约记录输入联邦学习系统中,而每一条这种违约记录的获取都是该类公司以巨额的经济损失作为交换,属于最高等级的商业机密。
为了解决这个问题,将ID、特征、标签三要素的全方位隐私保护放在产品第一要位,彻底解除高敏感领域的数据安全担忧,我们在联邦学习领域首创非对称联邦学习概念,首度发明Asymmetrical-PSI、Genuine-with-Dummy等技术,支撑起一条完整的非对称加密实体对齐 + 非对称加密特征工程 + 非对称加密模型训练联邦学习数据链路。我们将在FL-IJCAI20国际会议上展示部分相关工作[8]。
首创面向联邦成果分享的安全信息检索技术非对称联邦解决了训练过程中样本ID泄漏的问题,但在生产线上查询环节依然会因查询行为泄漏用户清单。若通过返回全量预测分数来保护查询方用户清单,则不便于按量计费,商业上存在障碍。