cimcoedit实体模型仿真设置,Fm模型

ref:https://tech.meituan.com/2018/06/07/search ads-dnn.html

影响神经网络的超参数非常多，神经网络的调制也是非常重要的。工业界比较实用的调制方法如下

网格搜索/Grid Search:这是机器学习模型参数调整时最常用的方法，为每个超级参数确定一些尝试的候选值，形成一个网格，使所有超级参数网格中的组合成为特拉特简单暴力，只要能经历一切，结果就比较可靠。但是，时间开销大，在神经网络场景中不太可能尝试参数的组合。随机搜索/Random Search:Bengio在《Randomsearchforhyper-parameter optimization》10中指出，random search比Grid Search更有效。在实际操作时，可以先用网格搜索的方法得到所有的候选参数，然后每次都随机选择训练。这种方案的优点是采样，从而减少了时间开销，但也可能忽略出色的超级参数组合。分阶段调参:首先进行初步范围搜索，然后根据有较好结果的地点，缩小范围进行更精细的搜索。或者根据经验值固定其他的超级参数，对其中一个超级参数进行对地实验，在所有的超级参数完成之前有逐次反复的选择。该方式的优点是，在优先试行次数中能够得到有效的结果。实际参数调整使用第三种方式，根据经验参数初始化超级参数，然后遵循隐层大小-学习率-Batch Size-Drop out/L1/L2的顺序进行参数调优。

1 .隐层层数和大小： 2层512 256我们也尝试了3层、4层隐层，但提高效果不是很大，而且训练时间长，可能会引起梯度消失、梯度爆炸和过拟合。隐藏层尺寸(512、256 )从128-128、512、256、512-256-128、521-256-256-128四种中选择

增加层数可以降低网络误差，提高精度，但会使网络复杂化，增加网络训练时间，出现“过拟合”倾向。

ref :3359 segment fault.com/q/10100000148183063358 sofa sofa.io/forum _ main _ post.PHP？ postid=1000320

要形象地理解隐层越大越有效，请访问https://www.zhi Hu.com/question/65403482

2 .学习率：最后选择0.001

3. BatchSize :最后选择1000

4.Dropout :神经元保留率为0.8

5.L1取值10-4； L2=10-4

DeepFM模型最后采用sigmoid final _ activation=' sigmoid '

隐层激活函数采用激活=' relu '

损失函数呐采用二元交叉熵损失

优化程序采用adam，

优化指标AUC

在MultiTextCNN上关于调参。

一些常见的互联网问题可以通过超级参与设置来解决。

适当减小过拟合网络宽度的深度、适当增大归一化参数、适当增大Dropout Ratio等。适当加大拟合不足网络宽度深度、减小正则化参数、减小学习率等。梯度消失/爆炸问题的适当激活函数、添加Batch Normalization、减小网络宽度深度等。局部最佳解调大学习速率、适当的优化器、减小Batch Size等。 Covariate Shift :意味着训练集中的数据分布与预测集中的数据分布不匹配。在这种情况下，用训练集训练分类器，在预测集中效果不大吧。深度学习网络在训练时容易受到输入层分布变化和上层参数变化的影响，因此在训练时需要使用较低的学习率，对参数初始化非常敏感。这就是internal covariate shift 增加Batch Normalization、网络宽度深度变小等。 BN有责任将特征分布恢复为原始数据分布