用户信息标签化,常规用户数据标签体系由哪些组成

大数据时代，数据出海呈现出量化、多样化、价值化变化的同时，也改变了传统IT行业的市场竞争环境、营销策略、服务模式。如何从ZB级庞大的数据中获得并筛选出有价值的信息，对IT企业来说是一个大课题，通过构筑顾客标签，支撑正确的营销服务，是为了应对上述课题的有效解决方案，但如何完善的用户标签体系怎么打上标签？要贴什么样的标签？谁打电话？如何使用用户标签创建业务价值？这些都是需要在产品设计层面解决的问题。

在地道Chat中，他说：

标签系统结构标签类型标签定义标签建设的技术结构应用场景在大数据时代，数据呈现出海外量化、多样化和价值化变化的同时，也改变了传统IT行业的市场竞争环境、营销策略和服务模式。如何从ZB级庞大的数据中获得并筛选出有价值的信息，对IT企业来说是一个大课题，通过构筑顾客标签，支撑正确的营销服务，是为了应对上述课题的有效解决方案，但如何完善的用户标签体系怎么打上标签？要贴什么样的标签？谁打电话？如何使用用户标签创建业务价值？这些都是需要在产品设计层面解决的问题。

掌上新闻一直以来致力于打造医生今日的顶尖和智能化学习平台，通过大数据技术实现医生学习的智能化和个性化，而建立这样的学习平台，基本上是建立用户的标签体系我们非常重视用户行为日志的收集。目前已有亿万级别的日志数据，建立了数据处理和标签计算平台。以下是我们整理的建设思想。

标签系统的结构标签系统可以分为数据加工层、数据服务层和数据APP应用层三个部分。每个级别的用户对象都不一样，事务的处理也不一样。层次越低，与业务的结合度越小。层级越高，业务关联性越强。

数据加工层数据加工层收集、清洗和提取数据。掌上电脑有很多学习模块，同时还有网站、APP、小程序等多种产品形式，每个产品模块和产品端都会产生大量的业务和行为数据。这些数据非常相似，各不相同，为了建立完整的用户标签体系，需要对范围尽可能广的数据进行汇总。收集所有数据后，需要清洗、清除重物、禁用、清除异常等。

数据业务层数据加工层为业务层提供最基础的数据能力，提供数据素材。业务层属于公共资源层，不属于产品或业务线。主要用于维护整个标签体系，集中管理在一个地方。在这一层，运营者和产品可以参与其中，提出切断原材料的业务要求。主要完成以下核心任务：

1、定义业务方需要的标签。 2、创建标签实例。 3、执行业务标签实例并提供相应数据。 http://www.Sina.com/APP应用层的任务是赋予产品和运营者标识工具的能力，聚合业务数据，构建具体的数据应用场景。

标签类型从数据提取维来看，标签分为数值标签、模型标签和预测标签。

数据应用层从生产系统获取数据，定性或定量地描述用户的自然属性、产品属性、消费属性、资源属性等，并根据工作人员的经验筛选积累的业务规则，分析生产的标签。例如，用户是否活跃、是否是考生等。

事实标签对用户属性和行为等属性进行抽象和聚类，通过对用户基础数据的分析为用户贴上相应的总结性标签和指数，标签表示用户的兴趣、偏好、需求等，指数是用户的

模型标签根据用户属性、行为、信令、位置和特点，挖掘用户潜在需求，针对这些潜在需求进行营销策略、规则标注，妈妈

从数据时效性来看，标签分为静态属性标签和动态属性标签。

预测标签长期永远不变。例如性别、出生年月日，这些数据都是既定事实，几乎没有变化。

静态属性标签必须有有效期，并定期更新以保证标签的有效性。例如用户的购买力、用户的活跃状况。

标签的定义是给用户做标签，制作用户图片，最终全部应用，我们站在应用场景上定义用户的标签体系，每个标签都有最终的用途。比如我们在做考试培训服务。需要制作“是否是考生”的标签。另外，不同行业的用户特征也存在明显差异，比如医生用户与普通用户相比，有更多特殊含义的标签，如“科室”、“职称”、“所在医院等级”等。

标签是层级关系，是为了管理、更好地理解，也是为了控制粗细，便于最终应用。标签深度一般控制在四级比较合适，到四级就是具体标签的实例。我们根据公司业务的不同先分为人口属性、行为属性、用户分类和商业属性四大类，再分为网络习惯、学习习惯、人群属性、消费能力、消费习惯等几大类，最后一类是用户的活动水平、阅读来源、考试偏好等

标签的维护不会所有的标签都是凭空产生的，不是一成不变的，也不会凭空消失。标签维护需要生成规则、定义权重和更新策略。

动态属性标签如第一部分所述，标签分为事实标签、模型标签、预测标签三类，对于这三类标签，生成规则的难度和复杂性也在逐步增加。事实标签只需要考虑从哪里提取就可以了，那就是包

含明确的标签定义，又包含无法穷举的标签集，比如关注的病种；而模型标签需要进行数据的关联和逻辑关系的设计，通过一定的模型对数据进行计算得来；而预测标签相对就非常的复杂，无法从原始数据提取标签，标签的生成准确度就太依赖我们大数据分析和人工智能技术的应用。

定义权重一个标签会在多个场景下出现，比如一个疾病标签，它极可能在浏览过程中生成，也有可能在搜索场景下产生，但是对于这两个场景所对应的同一个标签，他们的权重是不同的。浏览相比搜索，权重要小得多，因为搜索的主动需求更大。

更新策略上文我们从数据的时效性上对标签分为静态属性标签和动态属性标签。对于静态属性标签的处理相对比较简单，就不停的累加即可。但是对于动态属性标签，需要对过期标签进行降权甚至删除处理，比如医生考试前和考试后，会影响“是否考生”这个标签的，这就需要制定更新策略。

标签建设的技术架构

标签体系的建设涉及很多环节，数据量也十分巨大，需要有一个健壮且高效的技术架构来支持数据的存储及计算，掌上医讯采用了 sql 数据库和 no-sql 数据库来满足结构化数据和非结构化数据的存储，使用 hadoop 的分布式存储技术及 hive 和 hbase 组件作为数据仓库，使用 MapReduce 和 spark 分布式计算来提高计算速度，使用 kylin 进行多维分析，通过 BI 工具和接口对外提供应用，使用 sqoop 和 kettle 进行数据的抽取及流程的调用。

更多的应用场景

用户标签建立已经基本应用在掌上医讯的内容智能推荐的学习场景中，但随着标签的完善以及智能化处理的提升，这套标签体系将有更广阔的应用场景。

1、智能化学习场景的构建通过用户学习需求的标签的分析进行用户分群，针对不同的用户群在 APP 的功能和内容上进行个性化展示，满足不同学习需求的用户个性化的学习服务。

2、精准营销推广的建立更细粒度的对用户进行筛选，同时能够精准预测可能存在的目标用户进行推广，从而扩大医生覆盖，提升推广的转化率。

3、 KOL 用户画像的描绘基于该标签模型，增加对外部数据的采集分析，更加完整的生成医生 360 度的用户画像，帮助企业寻找潜在的 KOL 用户，实现用户洞察，辅助市场决策。

标签的建设是一个看似高大上，其实很繁琐、纠结的过程，需要对业务抽丝剥茧，还要应对运营需求的各种变化，不过对公司发展的影响也是深远的。

阅读全文: http://gitbook.cn/gitchat/activity/5dfc73c872bc415d27bbf139

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ，阅读更多 GitChat 专享技术内容哦。