首页 > 编程知识 正文

数据相关性分析方法包括,数据相关性分析 用什么算法

时间:2023-05-06 12:57:04 阅读:187127 作者:1867

五种常用相关分析方法转载: http://blue whale.cc/2016-06-30/analysis-of-correlation.html相关分析(Analysis of Correlation )在网络上通过分析不同特征和数据之间的关系,发现业务运营中的重要影响和驱动因素。 预测业务的发展。 本文介绍五种常用的分析方法。 在开始介绍相关分析之前,必须特别说明的是相关关系不等于因果关系。

相关分析的方法很多,用一次性方法可以迅速发现正相关、负相关或不相关等数据之间的关系。 中级方法可以测量数据之间关系的强弱,例如完全相关还是不完全相关。 高级方法可以将数据之间的关系转换为模型,并根据模型预测未来业务的发展。 这里将通过一组广告成本数据和曝光量数据来介绍每种相关分析方法。

以下是每日广告曝光量和费用成本的数据,每行表示一天的费用和获得的广告曝光量。 根据经验判断,这两个数据之间应该有联系,但仅靠这两个数据无法证明这种关系是真实存在的,也无法衡量这种关系的强度。 因此,我们希望通过相关性分析找到这两组数据之间的关系,并测量这种关系的进展情况。

1,图表相关分析(折线图及散点图)第一个相关分析方法是对数据进行可视化处理,简单来说就是制作图表。 单纯从数据的角度来看很难发现倾向和联系,但是把数据点做成图表的话倾向和联系就会变得清晰。 您选择了对具有明显时间维的数据使用折线图。

为了更清楚地比较这两个数据的变化和趋势,我们使用了双轴折线图。 其中,主轴用于绘制广告曝光量数据,副轴用于绘制费用成本数据。 折线图显示,成本与广告曝光量两组数据的变化和趋势基本相同,从总体大趋势看,成本与广告曝光量两组数据均呈增长趋势。 从规律性来看,费用成本和广告曝光量数据每次的最低点都出现在同一天。 从细节来看,两组数据的短期趋势变化也基本一致。

通过以上比较,可以说广告曝光量与成本之间存在一些相关关系,但这种方法在整个分析过程和解释中过于复杂,用复杂的数据或低相关度的数据来替代会出现很多问题。

比折线图更直观的是散点图。 散点图消除了时间维度的影响,只关注广告曝光量和费用成本这两组数据之间的关系。 在创建散点图之前,将费用成本标记为x (自变量),将广告曝光量标记为y (因变量)。 以下是基于每日广告曝光量和费用成本数据制作的散点图,x轴为自变量费用成本数据,y轴为变量广告曝光量数据。 从数据点的分布情况可以看出,自变量x和因变量y有相同的变化趋势,随着费用成本的增加,广告曝光量也增加。

折线图和散点图都清晰地显示了两组数据之间的相关关系:广告曝光量和费用成本。 好处是把相关关系显示清楚,坏处是不能准确测量相关关系,缺乏说服力。 另外,如果数据超过两组,各组数据之间的相关分析也无法完成。 要用特定数字测量两组或多组数据之间的相关关系,必须使用第二种方法:协方差。

第二种相关分析方法是计算协方差。 协方差用于测量两个变量的总体误差,如果两个变量的变化趋势一致,协方差为正值,表明两个变量呈正相关。 如果两个变量的变化趋势相反,协方差为负值,表明两个变量呈负相关关系。 如果两个变量彼此独立,协方差为0,表示这两个变量不相关。 协方差的计算公式如下所示。

以下是广告曝光量和费用成本之间协方差的计算过程和结果,经过计算,我们得到了较大的正值,可以说明两组数据之间存在正相关。 广告曝光量随费用成本的增加而增加。 在实际工作中,不需要通过以下方法进行计算,而是可以直接从Excel的COVAR ()函数中获得两组数据的协方差值。

协方差只能对两组数据进行相关分析,有两组以上数据时需要使用协方差矩阵。 以下是3组数据x,y,z,的协方差矩阵计算公式。

协方差用数字测量变量之间的相关,正值表示正相关,负值表示负相关。 但是,无法测定相关的密切度。 当我们面对多个变量时,不可能通过协方差来说明那两组数据的相关性最高。 要测量和比较相关的密切度,需要使用以下称为相关系数的方法。 因为,

2,协方差及协方差矩阵第三种相关分析方法是相关系数。 相关系数(Correlation coefficient )是反应变量之间关系密切程度的统计指标,相关系数取值区间在1到-1之间。 1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量没有相关。 数据越接近0,表示相关关系越弱。 相关系数的计算公式如下。

其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示x的样本标准偏差,Sy表示y的样本标准偏差。 Sxy协方差和Sx和Sy标准偏差的计算公式如下。 由于是样本协方差和样本标准差,所以分母使用n-1。

Sxy样本协方差公式:

Sx样品标准

差计算公式:

Sy样本标准差计算公式:

下面是计算相关系数的过程,在表中我们分别计算了x,y变量的协方差以及各自的标准差,并求得相关系数值为0.93。0.93大于0说明两个变量间正相关,同时0.93非常接近于1,说明两个变量间高度相关。

在实际工作中,不需要上面这么复杂的计算过程,在Excel的数据分析模块中选择相关系数功能,设置好x,y变量后可以自动求得相关系数的值。在下面的结果中可以看到,广告曝光量和费用成本的相关系数与我们手动求的结果一致。

相关系数的优点是可以通过数字对变量的关系进行度量,并且带有方向性,1表示正相关,-1表示负相关,可以对变量关系的强弱进行度量,越靠近0相关性越弱。缺点是无法利用这种关系对数据进行预测,简单的说就是没有对变量间的关系进行提炼和固化,形成模型。要利用变量间的关系进行预测,需要使用到下一种相关分析方法,回归分析。,

4,一元回归及多元回归

第四种相关分析方法是回归分析。回归分析(regression analysis)是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归,两个以上变量使用多元回归。进行回归分析之前有两个准备工作,第一确定变量的数量。第二确定自变量和因变量。我们的数据中只包含广告曝光量和费用成本两个变量,因此使用一元回归。根据经验广告曝光量是随着费用成本的变化而改变的,因此将费用成本设置为自变量x,广告曝光量设置为因变量y。

以下是一元回归方程,其中y表示广告曝光量,x表示费用成本。b0为方程的截距,b1为斜率,同时也表示了两个变量间的关系。我们的目标就是b0和b1的值,知道了这两个值也就知道了变量间的关系。并且可以通过这个关系在已知成本费用的情况下预测广告曝光量。

这是b1的计算公式,我们通过已知的费用成本x和广告曝光量y来计算b1的值。

以下是通过最小二乘法计算b1值的具体计算过程和结果,经计算,b1的值为5.84。同时我们也获得了自变量和因变量的均值。通过这三个值可以计算出b0的值。

以下是b0的计算公式,在已知b1和自变量与因变量均值的情况下,b0的值很容易计算。

将自变量和因变量的均值以及斜率b1代入到公式中,求出一元回归方程截距b0的值为374。这里b1我们保留两位小数,取值5.84。

在实际的工作中不需要进行如此繁琐的计算,Excel可以帮我们自动完成并给出结果。在Excel中使用数据分析中的回归功能,输入自变量和因变量的范围后可以自动获得b0(Intercept)的值362.15和b1的值5.84。这里的b0和之前手动计算获得的值有一些差异,因为前面用于计算的b1值只保留了两位小数。

这里还要单独说明下R Square的值0.87。这个值叫做判定系数,用来度量回归方程的拟合优度。这个值越大,说明回归方程越有意义,自变量对因变量的解释度越高。

将截距b0和斜率b1代入到一元回归方程中就获得了自变量与因变量的关系。费用成本每增加1元,广告曝光量会增加379.84次。通过这个关系我们可以根据成本预测广告曝光量数据。也可以根据转化所需的广告曝光量来反推投入的费用成本。获得这个方程还有一个更简单的方法,就是在Excel中对自变量和因变量生成散点图,然后选择添加趋势线,在添加趋势线的菜单中选中显示公式和显示R平方值即可。

以上介绍的是两个变量的一元回归方法,如果有两个以上的变量使用Excel中的回归分析,选中相应的自变量和因变量范围即可。下面是多元回归方程。

5,信息熵及互信息

最后一种相关分析方法是信息熵与互信息。前面我们一直在围绕消费成本和广告曝光量两组数据展开分析。实际工作中影响最终效果的因素可能有很多,并且不一定都是数值形式。比如我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标,最终要分析和关注的是用户是否购买的状态。而影响这个结果的因素也不仅仅是消费成本或其他数值化指标。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间分布,以及是否第一次到访网站等等。这些都不能通过数字进行度量。

度量这些文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。下面是我们模拟的一些用户特征和数据。在这些数据中我们忽略之前的消费成本和广告曝光量数据,只关注特征与状态的关系。

对于信息熵和互信息具体的计算过程请参考我前面的文章《决策树分类和预测算法的原理及实现》,这里直接给出每个特征的互信息值以及排名结果。经过计算城市与购买状态的相关性最高,所在城市为北京的用户购买率较高。

到此为止5种相关分析方法都已介绍完,每种方法各有特点。其中图表方法最为直观,相关系数方法可以看到变量间两两的相关性,回归方程可以对相关关系进行提炼,并生成模型用于预测,互信息可以对文本类特征间的相关关系进行度量。



Read more: http://bluewhale.cc/2016-06-30/analysis-of-correlation.html#ixzz5XYL3HKoI

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。