首页 > 编程知识 正文

如果时间序列中含有趋势(ACF时间序列)

时间:2023-05-06 15:17:37 阅读:88977 作者:37

文章《浅析网站流量趋势预测》分析和预测了网站的直接流量,虽然直接流量总体平稳,但工作日和周末差别很大。 因此,我们迄今为止采取了将工作日和周末的访问数据分开处理,根据分布状况分别进行推测的方法。 用该方法得到的预测值范围广,精度也差。 本文利用时间序列方法预测网站直接流量的变化趋势。

以下是4月4日——5月1日的网站直接通信会话数据。 表的周索引列中分别显示了工作日(weekday )和休息日(weekend ),以说明会话所属的类别。 可以看出,该组数据有明显的周末趋势,周末谈话数据明显低于工作日谈话数据。

由于使用时间序列分析和预测数据的第一步是观察数据的形态,所以将对话数据绘制在折线图上观察变化的趋势。 直接流量变化趋势图表明,总体趋势较为平稳,无明显增长和下降。 同时,谈话数据共分为4周,每周也有明显的周末趋势。 工作日的谈话量为300—400,周末的谈话量在200以下,两者之间有很大的差距。 你如何预测这两个差距很大的数据? 我们使用单线性回归的方法,单线性回归可以反映一个因子(y )和一个自变量)之间的线性关系。 至此的直接流量对应的对话是因子(y ),只要找到另一个自变量) x ),就可以建立一元回归线性方程式直接预测流量的变化趋势。

从前面的趋势图可以看出,直接流量的整体趋势比较平稳,只有周末时变化较大,周末数据和工作日数据有差异。 因此,直接流量变化的主要原因是所在日的周属性,在所在日为工作日(weekday )的情况下,会话数据在300-400之间。 另一方面,在所在日为周末(weekend )的情况下,会话数据将下降到200以下。 将日期的周属性设置为参数(x ),并将其命名为周变量。 该周变量)有两个值,如果日期是工作日,则为0,如果是休息日,则为1。

设置周变量后,将“周变量”列添加到直接通信的源数据表中,然后按日期的周属性输入“周变量”值。 周期=0,周期=1。 现在有变量(y )和自变量) x ),所以可以使用一元线性回归建立方程式来求两者的关系。

利用Excel的回归分析功能,将会话作为主要变量(y )输入,将“周变量) x )”作为自变量输入,得到以下分析结果。 其结果主要关注“周变量”的系数和截距(Intercept ),通过这两个值可以建立“周变量”和会话的一元线性回归方程。

这是一元线性回归方程,把前面的分析结果代入这个方程,就可以直接计算流量的值。 其中,y是直接业务的会话值,x是“周变量”可取的值,a是“周变量”系数,b是截距。

如上所述,“周变量”有两个值,工作日为0,休息日为1。 因此,在直接预测流量时,也分别根据日期的周属性计算工作日和休息日的直接流量会话值,以下表示取2个值的计算公式。

通过一元线性回归方程,得到了工作日和休息日直接流量的对话预测值。 每天的具体实际数据和预测数据如下表所示。

将直接流量的实际对话数据和预测数据绘制折线图进行比较,在比较平稳的趋势下仔细模拟数据,预测直接流量中工作日和休息日的数据变化。

以上是比较简单理想化的流量变化情况。 在实际工作中情况会变得更好

复杂,直接流量除了自身的规律以外,还会受到外部因素的影响,呈现上升或下降的趋势。这时候,直接流量的整体趋势不再平稳,并且还同时掺杂自身的周末趋势。这种情况下如何对直接流量进行分析和预测呢?

下面是4月4日——5月1日的直接流量会话数据,由于有周末趋势存在我们同样增加了周索引列来标识会话所属日期的周属性。

第一步将直接流量的会话数据汇总折线图观察流量的形态。直接流量除了自身的周末趋势以外,还有一个明显的上涨趋势。我们在进行分析和预测时要兼顾直接流量的周末趋势和上涨趋势。这里一元线性回归已经无法满足我们的需求了,需要使用多元线性回归。多元线性回归是一元线性回归的升级版,可以反应一个因变量(Y)与多个自变量(X)之间的关系。这里直接流量的会话数据是我们要求的因变量(Y),周末趋势是一个自变量(X),另一个自变量(X)就是直接流量的增长趋势。

我们首先在直接流量的原始数据中增加两个字段作为两个自变量X。第一个字段是周变量,设置的方法和取值范围与前面例子中介绍的完全一致。第二个字段是趋势变量,用来描述直接流量的增长趋势。在前面的折线图中已经看到直接流量呈线性增长,因此我们使用从1到28作为趋势变量中每一天的取值。现在我们有了因变量(Y)和两个自变量(X),可以通过建立多元线性回归方程来计算并预测直接流量的会话值了。

使用Excel中的回归功能,将会话作为因变量(Y)输入,将趋势变量和周变量作为自变量(X)输入,获得以下分析结果。在这个结果中我们主要关注三个值,截距(Intercept),趋势变量系数和周变量系数。

这是多元线性回归方程,我们将前面的分析结果代入到这个方程中,就可以获得直接流量的值。其中y是直接流量的会话值,x1是趋势变量,x2是周变量,b1是趋势变量系数,b2是周变量系数,a是截距。

通过多元线性回归方程我们获得了直接流量的预测值,每天的实际数据和预测数据展现在下面表格中。

将直接流量实际的会话数据与预测数据绘制成折线图进行对比,通过多元线性回归预测数据同时兼顾了直接流量中的周末趋势和整体的增长趋势。如果流量中还包括有其他影响因素只需通过绘制折线图观察影响因素的变化趋势和规律,然后增加相应的自变量(X)即可。

通过时间序列我们对直接流量的增长趋势进行了预测,很多时候除了知道趋势以外我们还希望对流量进行分解,了解影响流量变化的因素,这些因素在变化中所起的作用以及消除影响因素后流量真实的变化情况。我们使用时间序列对直接流量进行分解。下面是直接流量在最近4周时间的会话数据。

直接流量的变化可能受多个因素影响。例如前面的例子中,直接流量自身有明显的周末趋势,同时,受外部因素影响还有明显的增长趋势,此外可能还有一部分难以解释的随机波动因素。因此,我们将直接流量分为三个主要部分,分别为趋势值,紧张的翅膀和随机波动。并对直接流量按这三部分进行分解。以下是时间序列乘法分解模型。这里需要说明的是,除了趋势值以外,紧张的翅膀和随机波动将被分解为相对度量。数值大于1表示他们的影响在趋势值之上,数值小于1表示他们的影响在趋势值以下。

直接流量有明显的周末趋势,因此首先我们通过移动平均来消除直接流量中的周末趋势。由于周末趋势的变化是以周为单位的,因此我们选择7天的数据进行移动平均计算。下面是移动平均的计算公式。

我们按照移动平均公式对直接流量消除周末趋势,只保留直接流量的趋势值。以下是移动平均的计算结果。

移动平均通过对7天数据的平均对直接流量进行了平滑处理,消除了周末趋势及随机波动的影响,获得了直接流量的趋势值。下图是直接流量的实际值与趋势值的对比。

获得直接流量趋势值后,我们可以通过时间序列乘法分解模型获得紧张的翅膀和随机波动的相对度量。将时间序列乘法分解模型两边同时除以趋势值,可以获得紧张的翅膀和随机波动的组合度量。

分别将每一天的直接流量会话实际值除以移动平均后的趋势值,获得了紧张的翅膀和随机波动的组合度量值。下表中汇总了整个时间段的紧张的翅膀和随机波动的组合度量。

我们根据每一天的紧张的翅膀和随机波动组合度量值计算出周指数,方法是将上表星期索引中同一天的值进行平均。下表是直接流量一周的指数值。其中大于1表示紧张的翅膀的影响在趋势值之上,小于1表示紧张的翅膀的影响在趋势值之下。从下表中可以明显看出,周一到周五紧张的翅膀的影响都要大于趋势,而周末两天紧张的翅膀的影响小于趋势。

将周指数还原到每一天中,获得直接流量每一天会话的星期指数。使用实际会话值除以星期指数获得直接流量消除星期因素的会话量数据。也就是直接流量排除周末因素影响后的变化趋势。

将消除周末趋势后的直接流量变化趋势绘制到折线图上,使用趋势线来拟合消除紧张的翅膀影响的直接流量与时间周期。到目前为止我们分解出了直接流量中排除紧张的翅膀和随机波动的会话值,排除紧张的翅膀的会话值以及紧张的翅膀对于趋势值的影响。下面我们将使用排除紧张的翅膀的会话值对直接流量进行预测,并与紧张的翅膀进行整合,预测出带有紧张的翅膀的直接流量变化趋势。

我们将消除紧张的翅膀后的直接流量会话值作为因变量(Y),将时间作为自变量(X),通过一元线性回归来描述会话值与时间的关系。将因变量(Y)与自变量(X)输入到回归分析中,获得以下结果。其中星期ID是时间X的系数,Intercept是截距。

将回归分析的结果导入到一元线性回归方程,计算出排除紧张的翅膀的直接流量预测值。下表中显示了消除周末因素的直接预测值的计算结果。

将消除周末因素的预测值乘以星期指数,计算出直接流量实际值的预测趋势,下表中显示了计算结果和预测值。

将直接流量的实际值与增加紧张的翅膀的预测值绘制到折线图中,由于我们是先剥离出了直接流量的趋势值,然后在趋势值和随机波动值上增加的紧张的翅膀,因此预测值同时兼顾了直接流量的增长趋势和周末趋势。文章开始部分的预测相比,更加符合直接流量的真实变化趋势。

本篇文章的名字是使用时间序列预测网站流量增长趋势,但整篇文章只介绍了对直接流量的预测。其实这些方法适用于任何一种流量渠道,找到这些流量渠道的规律和影响因素就可以套用本文中的方法对流量趋势进行分解和预测。

来源:蓝鲸碎碎念

数据分析网(www.afenxi.com),国内领先的大数据门户,旨在帮助大数据从业人士、爱好者提供大数据新闻资讯、前沿技术、业界观点的信息平台。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。