federatedlearningwithnon-iid data论文笔记原文翻译参考: https://blog.csdn.net/gj _ 007/article/details/104632718
论文通过实验验证了在非iid数据中,采用FedAvg算法训练的模型会降低精度。
从该图可以看出,在非IID上使用FedAvg算法训练的模型精度明显下降,但对IID数据的精度几乎没有影响。
为了找出原因,原文采用了non-IID1和non-IID2两种不同分布的数据。 从图中可以看出,non-IID2的精度比non-IID1的精度低的情况较少,推测原因是数据分布的差异。
FedAvg算法训练的模型精度受数据分布偏差的影响。
研究方法:采用相同的初始化值训练模型,观察所得权重差异
定义权重差异
由上图可知,在IID数据中,FedAvg和SGD得到的权重差不大,观察折线的倾向,在接下来的几次更新后得到的权重差也不大。 在右图中,FedAvg和SGD得到的权重差较大,从折线的倾向可以观察到该差越来越大。
原文中用EMD法计算了数据分布的差异
推导公式:
因此,第m次同步后的权重的差异主要来源于第m 1次和实际的总分布的差异
提出了仅共享5%的全球数据就将精度提高30%
最后,他表示,全局共享数据是与客户端不同的数据集,因此对隐私不敏感。
但是,原文没有提到云上全球共享的数据来自哪里,为什么对隐私不敏感。
没能读出来
欢迎大家发表评论,提出自己的意见