破除人工智能中的数据孤岛------联邦学习

时间:2024-03-25 15:49:10

众所周知,现在人工智能的工作优化模式是基于数据的,也就是所谓的数据驱动;但是随着人工智能落地场景越来越丰富,社会对于数据隐私的关注也越来越重,尤其是在一些本就需要对隐私保护比较看重的领域(比如银行信贷),范例如下所示:

欧盟在几个月前颁布了《一般数据保护条例》(简称为GDPR)。该条例是近三十年来数据保护立法的最大变动,旨在加强对欧盟境内居民的个人数据和隐私保护。法案强调,机器学习模型必须具有可解释性(我们都知道Google的AutoML很好用,但是欧盟此举相当于宣告了AutoML的不适用),而且对于收集用户数据,必须公开、透明

毫无疑问的是在这种情况下,数据孤岛会逐渐显现。

在这种情况下,互联网或者IoT对于公司来说也不是可以随意染指的蓝海了。有人就提出了联邦迁移学习的方法来解决问题。

联邦学习的思想认为,目前各个企业的数据之前就像不同的国家,它们各自有自己的体系,但是无法很好地完成统一建模。联邦学习则将它们管辖在“一个国家、一个联邦*”之下,将不同的企业看作是这个国家里的“州”。这样,通过彼此之前不互通数据,彼此之间都可以获得模型效果的提升。FTL的核心是:各个企业的自有数据不出本地,模型效果不变。香港科技大学杨强教授和微众银行则是这一次联邦迁移学习的推手之一,比如他提到如下的模式:

如果下图中左侧的商店只有物品信息,没有用户画像;而右侧的旅行商只有用户信息,而没有物品信息。那么通过二者之间的联邦学习,微众银行就可以很好地进行用户和购买行为之间的个性化建模,从而帮助两类企业发展得更好。

破除人工智能中的数据孤岛------联邦学习

上图是杨强教授展示PPT,图片来自知乎 王晋东不在家

 

破除人工智能中的数据孤岛------联邦学习

 

解释:假设我们现有的A和B两个企业的数据,它们的服从上图的特征和样本维度。当A和B处于同一样本维度、不同特征维度时,我们可以用联邦学习;当A和B处于同一特征维度、不同样本维度时,我们就可以用迁移学习;二者的结合点则是:不同样本、不同特征维度。

具体地,可以扩展已有的机器学习方法,使之具有FTL的能力。比如,我们可以将不同企业、不同来源的数据首先训练各自的模型,然后,将模型数据进行加密,使之不能直接传输以免泄露用户隐私。然后,在这个基础上,我们对这些模型进行联合训练,最后得出最优的模型,再返回给各个企业。