综述论文“Federated Learning Systems: Vision, Hype and Reality for Data Privacy and Protection“

时间:2024-10-13 12:42:18

2019年12月3日上载到arXiv关于联邦学习的综述论文”A Survey on Federated Learning Systems: Vision, Hype and Reality for Data Privacy and Protection“。
在这里插入图片描述
摘要:联邦学习一直是在隐私限制下实现不同组织之间机器学习模型协作训练的热门研究领域。随着研究人员尝试使用不同的隐私保护方法来支持更多的机器学习模型,开发系统和基础架构要求简化各种联邦学习算法的开发。就像Caffe、PyTorch和Tensorflow之类深度学习系统促进深度学习算法发展一样,联邦学习系统也同样重要,并且面临着各种问题的挑战,例如不切实际的系统假设、可扩展性和效率。受联邦系统在其他领域(例如数据库和云计算)的启发,本文研究了联邦学习系统的现有特征。现有领域的联邦学习系统很少考虑其他领域联邦系统的两个重要特征,即异构性和自治性。此外,根据数据分区、机器学习模型、隐私机制、通信体系结构、联邦规模和联邦动机等六个不同方面对联合学习系统进行了彻底的分类。如案例研究所示,分类可以帮助设计联邦学习系统。最后,对现有的联邦学习系统进行了系统的比较,并提出了未来的研究机会和方向。

联邦数据库、联邦云和联邦学习:
Federated database, federated cloud, and federated learning
联邦学习分类:
在这里插入图片描述
联邦学习方法比较:
在这里插入图片描述
在这里插入图片描述
注:LM - Linear Models. DM - Decision Trees. NN - Neural Networks. CM - Cryptographic Methods. DP - Differential Privacy. MA - Model Aggregation.
在这里插入图片描述
今后研究方向:

  • (重新)发明联邦学习模型:在设计FLS时,许多现有的研究试图支持更多的机器学习模型,并提出了新的有效方法来保护隐私,同时又不会过多牺牲学习模型的准确性。
  • 动态调度:在学习过程中,参与方的数量可能不确定。 但是,在许多现有系统中,参与者的数目是固定的,并且不考虑新参与者进入或当前参与者离开的情况。 该系统应支持动态调度,并具有在参与者数量发生变化时调整策略的能力。 例如,Google TensorFlow Federated可以容忍某些设备掉线。 而且,区块链的出现可以成为多参与者学习理想且透明的平台。
  • 多种隐私限制:现有系统采用技术保护同一级别所有各参与者的模型参数或梯度。 但是,通常各方的隐私限制在现实中有所不同。 设计一个FLS的时候,将根据各方的隐私限制来区别对待。 如果可以在不违反各方隐私限制的前提下最大限度地利用其数据,则学习型模型应具有更好的性能。 异差异隐私(heterogeneous differential privacy)在此类设置中可能有用。
  • 智能收益:直观地,如果一方提供更多信息,则可以从FLS中获得更多收益。 一种简单的解决方案是在各方之间达成协议,某方需要为提供更多信息的其他方付费。 需要建立有代表性的激励机制。
  • 基准:随着越来越多的FLS开发出来,具有代表性数据集和工作负载的基准方法对评估现有系统和指导未来开发工作非常重要。
  • 系统架构:像深度学习控制参数同步的参数服务器一样,需要研究一些常见的系统架构来进行联邦学习。 在训练联邦学习模型的性能方面,通信成本可能是一个重要问题。
  • 数据生命周期:学习仅仅是联邦学习系统的一个方面。 数据生命周期包括多个阶段,包括数据创建、存储、使用、共享、存档和销毁。 为了保证整个应用程序的数据安全性和私密性,需要在联邦学习环境下创立新的数据生命周期。 尽管数据共享显然是关注的阶段之一,但联邦学习系统的设计也影响其他阶段。 例如,数据创建可以帮助准备适合联邦学习的数据和特征。
  • 数据标签:现有的大多数研究都集中在标记的数据集。 但是实际上训练数据集可能没有标签,或者标签有毒和错误,这可能会导致运行的错误预测。 中毒和标签错误可能来自不可靠的数据收集过程,例如在移动和边缘环境以及一些恶意团体。 解决数据中毒和后门攻击的问题仍然面临许多挑战。
  • 物联网:由于物联网应用程序的部署不断增加,安全性和隐私问题已成为雾计算和边缘计算的热门研究领域。 联邦学习可能是解决数据隐私问题的一种潜在方法,同时提供合理的机器学习模型。

其他关键挑战来自计算和功率约束。 隐私和安全性机制引入了运行开销。 类似的问题也发生在其他环境中,例如车-车网。