首页 > 编程知识 正文

公安男性y采集的用途,信息采集是什么意思

时间:2023-05-05 18:44:18 阅读:138797 作者:2804

文章目录1、系统架构流程图2、离线处理3、实时在线4、职业定位5、数据采集用途5.1数据分析5.2机器学习6、数据采集日志6.1数据模型6.2数据的生成6.3数据源划分6.4数据采集

推荐系统根据历史的数据进行推测。 数据是推荐系统的来源,数据怎么来? 如果有数据,就需要进行数据收集。 数据收集的主要来源是日志。 日志是用户在网站上生成的行为信息,这是我们获取数据的重要来源。

1、系统架构流程图在大数据场景下,用户在手机的APP端或页面输入网站,在相应的浏览器中输入,此时向后端服务器发送HTTP请求。

例如,如果输入baidu.com的网址,浏览器将向服务器发送关于该网址的HTTP请求,服务器接受并返回,浏览器将向用户显示结果。 当浏览器加载页面时,请单击埋点

页面上显示的数据记录在日志服务器中。 服务器在后端实际上是logs日志文件。 日志记录了许多信息,包括使用的浏览器、时间、网址ID、主题和用户行为。

事实上,我们的数据源有很多不同的结构。 我们必须收集、综合不同的数据。 我们经常使用Flume进行数据的交换和收集。 数据传来后,我们进行备份。 因此,Flume中的数据将备份到HDFS中。 当数据存储在HDFS上时,我们会进行ETL处理(常用hive、spark处理),将已处理、清理、归一化的数据存储在数据仓库中。

2、在离线处理数据仓库中,我们保存的数据是历史数据,我们可以挖掘数据的价值,展示数据的作用。 例如,进行数据的模型训练、用于数据分析的报告制作、可视化展示等。 这些操作都是离线操作。

我们通过模型训练,通过离线训练得到模型模型,将模型封装到后端服务器中,在线应用。 一般将离线训练的模型放置在redis中,作为矢量保存的模型一般导入后端工程(服务器),进行一些数据的预测,然后对结果进行估计。

例如,在线上来数据后,放入模型进行预测并评分。 如果看到该数据在该类别中的分数(概率)较高,就可以预测该数据属于哪个类别。

许多数据通过模型后,将根据返回的概率大小进行排序,并将前几个Top5的商品结果返回给用户。 这些Top5的商品是用户喜欢的或者经常买的。

这就是我们数据仓库涉及到的部分。

3、希望实时在线进行数据开发,或者后端做在线产品。 在线数据怎么来? 在用Flume收集数据的时候,对于刚收集到的数据我们必须短期保管—— kafka。 此外,kafka数据源不仅可以从Flume中获取,还可以从日志服务器和后端服务器中获取。

数据到达kafka后,可以使用spark streaming、Flink和Storm进行一些流式处理。 处理后的数据可以存储在MySQL中,后端服务器也可以从MySQL中调用数据。 后端服务器还可以将数据存储在MySQL(redis(hbase ) )中。 这是一个双向的过程。

Flume -- Kafka -- spark streaming -- MySQL(RedisHbase) 服务端

这是一个数据实时处理的部分(下图方框为蓝色部分)

我们能理解Flume收集的数据是自来水。 kafka是蓄水池。 在蓄水池中,可以让水继续流到spark streaming中使用。

4、职业定位假设我们从事的话,在数据仓库的方向上,我们会主攻离线处理部分(上面画的红色区域)

假设我们从事的是数据开发的方向,在线实时处理部分。

在名为浏览器-日志服务器-Flume的成熟平台上进行了封装。

模型培训- model -redis -服务器,它涉及机器学习、算法

用户-页面-浏览器与前端专业相关,包括嵌入点。

页面与UI专业相关。

后端服务器开发涉及后端专业

在我们学习的过程中,我们的侧重点必须仔细寻找。

5、数据采集用途数据采集后,可以生成BI报告。 BI报告是指综合提供企业内现有数据的报告。 BI报告是目前业界使用最广泛、成熟的,需要一个公司报告。

BI报表取统计数据,先给PM (产品)。 广告可以通过报告推测哪些策略可能会产生哪些效果。 如果通过数据知道哪些产品是bad,就不直接截断。 运营人员对产品进行了一些推广,了解哪些类型的用户使用的是什么策略,通过报表了解这些用户能否达到推广的预期,不行的话可以通过改变用户,通过报表减少损失leader/Bo

ss决策,大佬通过报表进行决策,看经过一段时间的效益有没有达到期待,没有就改变策略。

数据分析:数据分析师通过报表进行数据分析,用SQL、Excel进行。

机器学习:数据挖掘,算法工程师通过报表数据,经过测试看哪些数据是有价值,哪些没价值。

最基本的数据收集,是为了统计最核心的产品指标:

常规数据指标的监测:用户量,新用户量,UGC(社交产品),销量,付费量,推广期间各种数据等;渠道分析/流量分析:分析/监控引流渠道优劣;用户的核心转化率:统计付费率,购买率;用户使用时长的监测:用户活跃度,产品验证 ;用户流失情况:监控用户的流失率(1,3,7,30;活跃用户动态:关注活跃用户动态。

这些指标有什么用?
了解指标是最基本的数据采集需求:1、业绩的衡量;2、对接业务的核心点;3、知道经过你手的数据最终有什么用。

报表统计作用:1、为了监控产品的健康状况;2、为了对外展示公司实力(拉投资)。

5.1 数据分析 数据分析是比较常见的数据采集需求;对比报表统计的区别:不但需要知道产品是否健康,还需要知道为什么健康、为什么不健康,做对了什么事情、做错了什么事情,要从数据中去找到根本原因。驱动了很多多维分析软件应运而生。数据分析工作,最后要产出的是比较简明清晰直观的结论,这是数据分析师综合自己的智慧加工出来的,是由人产生的。主要用于产品设计、指导商业推广、指导开发方式。实打实的数据驱动产品。 5.2 机器学习 收集数据为了机器学习应用,更广泛地说人工智能应用;区别于数据分析:主要在消化数据的角色是算法、是计算机,而不是人;在采集的维度(字段),样本数量都希望越多越好;注意:这里的数据是否适合分析,数据是否易于可视化地操作并不是核心内容;指标举例:用户(物品)特征描述:算法建模上,和产品上使用,用户(物品) 生命周期的监测:在建模上需要考虑。 6、数据采集日志 6.1 数据模型 数据模型,其实就是把数据归类。产品越负责,业务线越多,产生的日志就越复杂。不同业务关心的数据不一样,就推荐系统业务来说,关心的是人与物之间的连接,需要依赖已经有的人与物的连接,以及人和物的属性(详细描述)。数据模型有助于梳理日志、归类存储,以方便在使用时获取。数据可以看。

6.2 数据的产生

主要来自两种:

业务运转必须要存储的记录,如:用户填写的注册信息,一般存储在线上的业务数据库 中,通常都是结构化存储,Mysql。用户在使用产品时顺便记录下来的,这叫埋点。埋点按照技术手段分有几种:
1、SDK埋点。 这是最古老的埋点方法,就是在开发APP和网站,嵌入第三方统计,第三方统计得到数据后再进一步分析展示。
2、可视化埋点。 在SDK埋点基础上组做了进一步工作,埋点工作可通过可视化配置。就是在APP或者网站嵌入可视化埋点套件的SDK。
3、无埋点。 谓无埋点不是不埋点收集数据,而是尽可能多自动收集所有数据,但是使用方按照自己的 需求去使用部分数据。

埋点位置可以分为前端埋点和后端埋点。两者区别在于:

前端埋点: 要收集用户的点击事件,前端埋点就是在用户点击时,除了响应他的点击请求,还同时发送一 条数据给数据采集方。后端埋点: 由于用户的点击 需要和后端交互,后端收到这个点击请求时就会在服务端打印一条业务日志, 所以数据采集就是采集这条业务日志就可以。埋点十分复杂,国内有专门解决埋点的公司,比如神策数据,有些工作已经做得很傻瓜化了。前端埋点的成本高,后端埋点的成本低。

对于推荐业务来说,数据基本上可以从后端收集,采集成本较低(为什么?)

后端数据需要有两个要求:
1、要求所有的时间都需要和后端交互;
2、要求所有业务响应都要有日志记录。

后端收集日志有很多好处,比如:
1、实时性。由于业务响应是实时的,所以日志打印也是实时的,因此可以做到实时收集;
2、可及时更新。由于日志记录都发生在后端,所以需要更新时可以及时更新,而不用重新发布客户端版本;
3、开发简单。不需要单独维护一套SDK。

Event事件类别的数据从后端各个业务服务器产生的日志来,Item和User类型数据,从业务数据库来,还有一些特殊的数据就是Relation类别从业务数据库来。

6.3 数据源的划分 稳定的网络服务器日志:Nginx或者Apache产生的日志。在PC互联网时代,有一种事件收集方式是,放一个一像素的图片在某个要采集数据的位置。这个图片被点击时,向服务端发送一个不做什么事情的请求,只是为了在服务端的网络服务器哪里产生一条系统日志。这类日志用Logstash收集。业务服务器:这类服务器会处理具体场景的具体业务,自不同的日志记录方式。例如Java是Log4j,Python是Logging等等,还有RPC服务。这些业务服务器通常会分布在多台机器上,产生的日志需要用Flume汇总。Kafka是一个分布式消息队列,按照Topic组织队列,订阅消息模式,可以横向水平扩展,非常适合作为日志清洗计算层和日志收集之间的缓冲区。不论是Logstash还是Flume,都会发送到Kafka指定的topic中。处理完采集到的数据,会送往分布式的文件系统中永久存储,一般是HDFS,为了后续抽取方便快速,一般要把日志按照日期分区。 6.4 数据采集的质量检测 是否完整?事件数据至少要有用户ID、物品ID、事件名称三元素才算完整。是否一致?同一个事实的不同方面会表现不同数据,这些数据需要相互佐证。是否正确?该记录的数据一定是取自对应的数据源,不能满足则应该属于Bug级别,记录了错误的数据。是否及时?虽然一些客户端埋点数据,为了降低网络消耗,会积累一定时间打包上传数据,但是数据的及时性直接关系到数据质量。 6.5 日志传输 无线端产生日志,不是产生一条日志上传一条,而是先存储在客户端(手机), 然后再伺机上传(会有机制) ;客户端数据上传:
1、向服务器发送POST请求;
2、服务器端处理上传请求,做相关校验;
3、将数据追加到本地文件中进行存储;
4、存储方式使用Nginx的access_log;
5、access_log的切分维度为天。

通过文章我们了解:

系统的流程架构,通过架构的模块可以知道职业主攻方向,有利于规划未来。数据采集的用途,有数据分析、机器学习;了解数据的模型,日志产生的来源、数据源的划分、质量检查、日志传输等。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。