Federated Learning with Non-IID Data 论文笔记
原文翻译参考:https://blog.****.net/GJ_007/article/details/104632718
论文通过实验验证了,在non-IID数据中,使用FedAvg算法训练的模型会使准确率降低。
从图中可以看出在non-IID使用FedAvg算法训练的模型准确率有了明显的下降,但是对于IID数据的准确率几乎没有影响。
为了探究原因,原文采用了两种不同程度分布的数据:non-IID1和non-IID2。从图中可以发现non-IID2的准确率比non-IID1的准确率下降的少,所以推测原因是因为数据分布的不同。
FedAvg算法训练的模型准确率收到数据分布偏态性的影响。
研究方法:使用相同的初始化值训练模型,观察得到的权值的差异
定义权值差异
从上图可以看出IID数据中FedAvg和SGD得到的权值差异不大,并观察折线的趋势,在接下来的几轮更新后得到的权值差异也不大。在右图可以观察出FedAvg和SGD得到的权值差异较大,且根据折线的趋势可以看出这种差异会越来越大。
原文采用了EMD方法来计算数据分布之间的差异
并提出只需共享5%的全局数据便可提高准确率30%