推荐系统算法都有哪些(dnn算法)

1、原理介绍

LR (逻辑回归)算法的本质是线性回归函数，该算法主要用作两类场景，如点击率的估计、算法公式如下。

其中x是模型的输入

xi表示每个维的输入。 w是表示模型的输入x的系数向量，w=(w1，w2，…)，wi表示维xi的权重。 2、求解模型

我们通过梯度下降法来求解我们的模型。以点击率的估算为例，首先收集样本。变量定义如下：

nums表示收集的样本数量。 (Xi，yi )表示用户第一个样本的数据，Xi表示样本的特征，yi表示点击情况(0表示没有点击，1表示点击)。 Yi表示模型的预测值，是关于w、b的变量。定义交叉熵损失函数：

这是通过梯度下降法求解los(w，b )的最小时对应的w，b所求出的模型参数。

3、业务实践

在目前的推荐系统行业中，LR算法采用大规模离散化特征(one-hot代码)，然后带入LR模型，以广告点击率模型为例，如下所示。

Step1)用户图像的构建按特征构建用户图像，将类别下的所有特征离散化，如用户历史浏览项目的记录、用户的社会属性、模型对用户的标记等。

表：用户图像

Step2)构成物品图像的物品图像也同样需要划分物品的特征类别。类别下的特征是物品ID、物品标签、物品热等的离散化处理。

表：用户图像

Step3)在构建场景图像的实际业务实践中，很多情况下一个模型需要使用多个场景，不同场景的项目平均点击率有很大差异。为了更好地解决平均点击率因场景而异的问题，需要添加场景的特征。场景图像通常只有场景ID，但是可以将位置信息附加到特定的场景(例如，搜索列表)。

表：场景图像

Step4)样本数据收集历史记录曝光点击数据，收集数据维度为：用户ID、项目ID、场景ID，是否点击。然后，将用户图像和物品图像相关联，得到模型的训练样本数据。

表：样本数据

Step5)通过结构模型特征样本数据构建模型特征来获得模型的输入。模型特征分为交叉特征和原始特征两类。

交叉特征：选择用户的类别特征，选择项目的类别特征，使场景ID三维交叉。例如，如果用户历史的点击历史为item1、item2，项目的ID特征为I1，场景特征为场景1，则生成的交叉特征为item1I1scene1、item2I1scene1。

原始特征：原始特征是指将图像特征直接作为模型的输入特征，一般以物品的泛化特征为原始特征，用于物品的CTR、物品的热量、物品的标签等物品的冷启动特征和场景的冷启动特征。

表：模型输入

步骤6 )模型训练将模型内的所有特征进行一次热编码。设模型特征数为n，首先对每个模型特征进行唯一的1-N编码。每个样本的模型输入向量是维度相对于n取0/1的值的向量，0表示有与该样本对应的编号的特征，没有1。例如，在具有样本1编号1和编号3的特征的情况下，为样本1的模型输入向量

Step7)模型使用某个用户u和几个候选项目，如何向用户u推荐项目。通过上述方法计算用户u对候选集中各个项目的模型得分，并按照模型得分从大到小的顺序推荐给用户.