公安男性y采集的用途,信息采集是什么意思

文章目录1、系统架构流程图2、离线处理3、实时在线4、职业定位5、数据采集用途5.1数据分析5.2机器学习6、数据采集日志6.1数据模型6.2数据的生成6.3数据源划分6.4数据采集

推荐系统根据历史的数据进行推测。数据是推荐系统的来源，数据怎么来？如果有数据，就需要进行数据收集。数据收集的主要来源是日志。日志是用户在网站上生成的行为信息，这是我们获取数据的重要来源。

1、系统架构流程图在大数据场景下，用户在手机的APP端或页面输入网站，在相应的浏览器中输入，此时向后端服务器发送HTTP请求。

例如，如果输入baidu.com的网址，浏览器将向服务器发送关于该网址的HTTP请求，服务器接受并返回，浏览器将向用户显示结果。当浏览器加载页面时，请单击埋点

页面上显示的数据记录在日志服务器中。服务器在后端实际上是logs日志文件。日志记录了许多信息，包括使用的浏览器、时间、网址ID、主题和用户行为。

事实上，我们的数据源有很多不同的结构。我们必须收集、综合不同的数据。我们经常使用Flume进行数据的交换和收集。数据传来后，我们进行备份。因此，Flume中的数据将备份到HDFS中。当数据存储在HDFS上时，我们会进行ETL处理(常用hive、spark处理)，将已处理、清理、归一化的数据存储在数据仓库中。

2、在离线处理数据仓库中，我们保存的数据是历史数据，我们可以挖掘数据的价值，展示数据的作用。例如，进行数据的模型训练、用于数据分析的报告制作、可视化展示等。这些操作都是离线操作。

我们通过模型训练，通过离线训练得到模型模型，将模型封装到后端服务器中，在线应用。一般将离线训练的模型放置在redis中，作为矢量保存的模型一般导入后端工程(服务器)，进行一些数据的预测，然后对结果进行估计。

例如，在线上来数据后，放入模型进行预测并评分。如果看到该数据在该类别中的分数(概率)较高，就可以预测该数据属于哪个类别。

许多数据通过模型后，将根据返回的概率大小进行排序，并将前几个Top5的商品结果返回给用户。这些Top5的商品是用户喜欢的或者经常买的。

这就是我们数据仓库涉及到的部分。

3、希望实时在线进行数据开发，或者后端做在线产品。在线数据怎么来？在用Flume收集数据的时候，对于刚收集到的数据我们必须短期保管—— kafka。此外，kafka数据源不仅可以从Flume中获取，还可以从日志服务器和后端服务器中获取。

数据到达kafka后，可以使用spark streaming、Flink和Storm进行一些流式处理。处理后的数据可以存储在MySQL中，后端服务器也可以从MySQL中调用数据。后端服务器还可以将数据存储在MySQL(redis(hbase ) )中。这是一个双向的过程。

Flume -- Kafka -- spark streaming -- MySQL(RedisHbase) 服务端

这是一个数据实时处理的部分(下图方框为蓝色部分)

我们能理解Flume收集的数据是自来水。 kafka是蓄水池。在蓄水池中，可以让水继续流到spark streaming中使用。

4、职业定位假设我们从事的话，在数据仓库的方向上，我们会主攻离线处理部分(上面画的红色区域)

假设我们从事的是数据开发的方向，在线实时处理部分。

在名为浏览器-日志服务器-Flume的成熟平台上进行了封装。

模型培训- model -redis -服务器，它涉及机器学习、算法。

用户-页面-浏览器与前端专业相关，包括嵌入点。

页面与UI专业相关。

后端服务器开发涉及后端专业。

在我们学习的过程中，我们的侧重点必须仔细寻找。

5、数据采集用途数据采集后，可以生成BI报告。 BI报告是指综合提供企业内现有数据的报告。 BI报告是目前业界使用最广泛、成熟的，需要一个公司报告。

BI报表取统计数据，先给PM (产品)。广告可以通过报告推测哪些策略可能会产生哪些效果。如果通过数据知道哪些产品是bad，就不直接截断。运营人员对产品进行了一些推广，了解哪些类型的用户使用的是什么策略，通过报表了解这些用户能否达到推广的预期，不行的话可以通过改变用户，通过报表减少损失leader/Bo

ss决策，大佬通过报表进行决策，看经过一段时间的效益有没有达到期待，没有就改变策略。

数据分析：数据分析师通过报表进行数据分析，用SQL、Excel进行。

机器学习：数据挖掘，算法工程师通过报表数据，经过测试看哪些数据是有价值，哪些没价值。

最基本的数据收集，是为了统计最核心的产品指标：

常规数据指标的监测：用户量，新用户量，UGC（社交产品），销量，付费量，推广期间各种数据等；渠道分析/流量分析：分析/监控引流渠道优劣；用户的核心转化率：统计付费率，购买率；用户使用时长的监测：用户活跃度，产品验证；用户流失情况：监控用户的流失率(1，3，7，30；活跃用户动态：关注活跃用户动态。

这些指标有什么用？
了解指标是最基本的数据采集需求：1、业绩的衡量；2、对接业务的核心点；3、知道经过你手的数据最终有什么用。

报表统计作用：1、为了监控产品的健康状况；2、为了对外展示公司实力(拉投资)。

5.1 数据分析数据分析是比较常见的数据采集需求；对比报表统计的区别：不但需要知道产品是否健康，还需要知道为什么健康、为什么不健康，做对了什么事情、做错了什么事情，要从数据中去找到根本原因。驱动了很多多维分析软件应运而生。数据分析工作，最后要产出的是比较简明清晰直观的结论，这是数据分析师综合自己的智慧加工出来的，是由人产生的。主要用于产品设计、指导商业推广、指导开发方式。实打实的数据驱动产品。 5.2 机器学习收集数据为了机器学习应用，更广泛地说人工智能应用；区别于数据分析：主要在消化数据的角色是算法、是计算机，而不是人；在采集的维度（字段），样本数量都希望越多越好；注意：这里的数据是否适合分析，数据是否易于可视化地操作并不是核心内容；指标举例：用户(物品)特征描述：算法建模上，和产品上使用，用户(物品) 生命周期的监测：在建模上需要考虑。 6、数据采集日志 6.1 数据模型数据模型，其实就是把数据归类。产品越负责，业务线越多，产生的日志就越复杂。不同业务关心的数据不一样，就推荐系统业务来说，关心的是人与物之间的连接，需要依赖已经有的人与物的连接，以及人和物的属性（详细描述）。数据模型有助于梳理日志、归类存储，以方便在使用时获取。数据可以看。

6.2 数据的产生

主要来自两种：

业务运转必须要存储的记录，如：用户填写的注册信息，一般存储在线上的业务数据库中，通常都是结构化存储，Mysql。用户在使用产品时顺便记录下来的，这叫埋点。埋点按照技术手段分有几种：
1、SDK埋点。 这是最古老的埋点方法，就是在开发APP和网站，嵌入第三方统计，第三方统计得到数据后再进一步分析展示。
2、可视化埋点。 在SDK埋点基础上组做了进一步工作，埋点工作可通过可视化配置。就是在APP或者网站嵌入可视化埋点套件的SDK。
3、无埋点。 谓无埋点不是不埋点收集数据，而是尽可能多自动收集所有数据，但是使用方按照自己的需求去使用部分数据。

埋点位置可以分为前端埋点和后端埋点。两者区别在于：

前端埋点： 要收集用户的点击事件，前端埋点就是在用户点击时，除了响应他的点击请求，还同时发送一条数据给数据采集方。后端埋点： 由于用户的点击需要和后端交互，后端收到这个点击请求时就会在服务端打印一条业务日志，所以数据采集就是采集这条业务日志就可以。埋点十分复杂，国内有专门解决埋点的公司，比如神策数据，有些工作已经做得很傻瓜化了。前端埋点的成本高，后端埋点的成本低。

对于推荐业务来说，数据基本上可以从后端收集，采集成本较低（为什么？）

后端数据需要有两个要求：
1、要求所有的时间都需要和后端交互；
2、要求所有业务响应都要有日志记录。

后端收集日志有很多好处，比如：
1、实时性。由于业务响应是实时的，所以日志打印也是实时的，因此可以做到实时收集；
2、可及时更新。由于日志记录都发生在后端，所以需要更新时可以及时更新，而不用重新发布客户端版本；
3、开发简单。不需要单独维护一套SDK。

Event事件类别的数据从后端各个业务服务器产生的日志来，Item和User类型数据，从业务数据库来，还有一些特殊的数据就是Relation类别从业务数据库来。

6.3 数据源的划分 稳定的网络服务器日志：Nginx或者Apache产生的日志。在PC互联网时代，有一种事件收集方式是，放一个一像素的图片在某个要采集数据的位置。这个图片被点击时，向服务端发送一个不做什么事情的请求，只是为了在服务端的网络服务器哪里产生一条系统日志。这类日志用Logstash收集。业务服务器：这类服务器会处理具体场景的具体业务，自不同的日志记录方式。例如Java是Log4j，Python是Logging等等，还有RPC服务。这些业务服务器通常会分布在多台机器上，产生的日志需要用Flume汇总。Kafka是一个分布式消息队列，按照Topic组织队列，订阅消息模式，可以横向水平扩展，非常适合作为日志清洗计算层和日志收集之间的缓冲区。不论是Logstash还是Flume，都会发送到Kafka指定的topic中。处理完采集到的数据，会送往分布式的文件系统中永久存储，一般是HDFS，为了后续抽取方便快速，一般要把日志按照日期分区。 6.4 数据采集的质量检测是否完整？事件数据至少要有用户ID、物品ID、事件名称三元素才算完整。是否一致？同一个事实的不同方面会表现不同数据，这些数据需要相互佐证。是否正确？该记录的数据一定是取自对应的数据源，不能满足则应该属于Bug级别，记录了错误的数据。是否及时？虽然一些客户端埋点数据，为了降低网络消耗，会积累一定时间打包上传数据，但是数据的及时性直接关系到数据质量。 6.5 日志传输无线端产生日志，不是产生一条日志上传一条，而是先存储在客户端（手机），然后再伺机上传（会有机制）；客户端数据上传：
1、向服务器发送POST请求；
2、服务器端处理上传请求，做相关校验；
3、将数据追加到本地文件中进行存储；
4、存储方式使用Nginx的access_log；
5、access_log的切分维度为天。

通过文章我们了解：

系统的流程架构，通过架构的模块可以知道职业主攻方向，有利于规划未来。数据采集的用途，有数据分析、机器学习；了解数据的模型，日志产生的来源、数据源的划分、质量检查、日志传输等。