记笔记的方法,论文读书笔记格式

federatedlearningwithnon-iid data论文笔记原文翻译参考： https://blog.csdn.net/gj _ 007/article/details/104632718

论文通过实验验证了在非iid数据中，采用FedAvg算法训练的模型会降低精度。

从该图可以看出，在非IID上使用FedAvg算法训练的模型精度明显下降，但对IID数据的精度几乎没有影响。

为了找出原因，原文采用了non-IID1和non-IID2两种不同分布的数据。从图中可以看出，non-IID2的精度比non-IID1的精度低的情况较少，推测原因是数据分布的差异。

FedAvg算法训练的模型精度受数据分布偏差的影响。

研究方法：采用相同的初始化值训练模型，观察所得权重差异

定义权重差异

由上图可知，在IID数据中，FedAvg和SGD得到的权重差不大，观察折线的倾向，在接下来的几次更新后得到的权重差也不大。在右图中，FedAvg和SGD得到的权重差较大，从折线的倾向可以观察到该差越来越大。

原文中用EMD法计算了数据分布的差异

推导公式：

因此，第m次同步后的权重的差异主要来源于第m 1次和实际的总分布的差异

提出了仅共享5%的全球数据就将精度提高30%

最后，他表示，全局共享数据是与客户端不同的数据集，因此对隐私不敏感。

但是，原文没有提到云上全球共享的数据来自哪里，为什么对隐私不敏感。

没能读出来

欢迎大家发表评论，提出自己的意见