36大数据专题文章,原创作者:小张本文由小张提交给36大数据,授权独家发布36大数据。转载须征得本网站及作者同意,拒绝任何未注明作者及出处的转载!
1.数据挖掘导论
面对山高海阔的数据,我们该怎么办?
数据挖掘中的5W问题
为什么要使用数据挖掘?
什么是数据挖掘?
谁在使用数据挖掘?
数据挖掘的方法有哪些?
数据挖掘在哪里使用?
百度百科对数据挖掘的定义如下:
数据挖掘(英文:Data mining)也被翻译为数据挖掘和数据挖掘。这是数据库知识发现的一步(KDD)。数据挖掘一般是指通过算法从大量数据中搜索隐藏信息的过程。数据挖掘是一门跨多个领域的交叉学科,通常与人工智能、模式识别和计算机科学有关。上述目标是通过统计、在线分析处理、信息检索、机器学习、专家系统(依靠过去的经验规则)和模式识别等多种方法实现的。其特点是:海量数据搜索知识,集成转化度量值、分析模式评价效果和图形界面显示。
数据挖掘主要构建四类模型:分类、聚类、预测和关联。
分类
串
预测
有关系
数据挖掘是商业智能领域的一个重要方向。
BI借助工具软件和数学算法(如神经网络、遗传算法、聚类、客户细分等)对企业的数据、业务和市场进行分析和预测。),并以图表和数据分析报告的形式支持企业决策、营销、业务发展和信息运营。
数据人、工具、算法、知识预测=商业智能(BI)
数据挖掘在电信行业中的应用:
如何发现电信客户的特征和分类
如何预测哪些客户即将流失?
如何评价客户的贡献价值
如何判断客户欺诈的特征?
如何发掘我的潜在客户?
如何预测和控制欠款/坏账
大客户的消费行为和人口特征有什么特点?
如何知道公司未来的收入以及某个收入因素对整体收入的影响指数?
.以及更多。
2.数据挖掘建模方法
数据挖掘建模方法简介
数据挖掘过程模型独立于具体的数据挖掘模型和系统,从方法论的角度明确定义了实施数据挖掘项目的过程和步骤。常用的工艺模型有三种,CRISP-DM、SEMMA和5A,如下图所示:
其中SEMMA、5A和CRISP-DM工艺模型如下图所示。
数据挖掘建模步骤1-业务理解
业务理解:理解业务目标和业务需求可以转化为数据挖掘的问题定义。
常见误区:很多人认为没有必要事先确定问题和目标,只要对数据使用数据挖掘技术,然后对分析挖掘后的结果进行搜索和解释,一些我们之前不知道的有用的规则和知识自然会被发现。
数据挖掘建模步骤2-数据理解
数据理解:过滤所需数据,检查数据质量,了解数据的含义和特征。
理解数据,顾名思义,是基于对业务问题的理解。
的梳理分析,找到合适的分析斱法戒者斱法论指导模型指标设计,确保指标体系化、全面性。数据挖掘建模步骤3-数据准备(1)
数据挖掘建模步骤3-数据准备(2)
数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。
数据挖掘建模步骤4-模型建立
根据建模场景进行算法选择:如描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法 。
数据挖掘建模步骤5-模型评估
模型评估目的在于:什么样的模型是有效的?模型的实际应用效果如何?
根据样本数据,模型结果实际效果反馈数据迚行模型评估。
数据挖掘建模步骤6-模型发布
聚焦业务问题提供端到端的专题解决方案;
提高数据挖掘应用的效果和价值。
数据挖掘建模步骤7-模型优化
3、数据挖掘算法介绍
1)、聚类分析
2)、分类(决策树)
3)、预测(BP神经网路)
BP神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,它不但具有处理数值数据的一般计算能力,而且还具有处理知识的思维、学习、记忆能力。
在数据挖掘中经常利用神经网络的学习、记忆、模型工能进行一些预测。
基于神经网络的数据挖掘过程由数据准备、规则提取和规则应用、预测评估四个阶段组成。其中,规则提取是我们模型预测的核心。
4)、预测(回归)
5)、关联规则
6)、数据处理(主成分/因子分析)
7)、指纹算法
重入网识别技术-呼叫指纹算法
“呼叫指纹”,用户在使用电信运营商的产品及服务过程中所产生的交际圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等信息。这些特征对每一用户而言,是相对稳定的,且存在个体差异。
重入网识别依据:利用“呼叫指纹”特征,建立新发展用户和老用户核心指纹库,指纹相似度越大,判断为统一用户的的概率越大。
4、数据挖掘应用案例
1)、流失预警模型
客户流失预警模型的建设目的是提前预测客户的流失可能性,根据客户特征对客户进行分群、建模,筛选出可能即将要流失的用户,辅助业务部门提高客户维系挽留工作的效率、提高维系成本的使用效率,降低客户流失率。
2)、用户真实性识别模型
根据用户入网以后的使用行为、使用位置、缴费特征等识别出虚假用户、欠真实性用户和真实性用户,从而根据不同的用户群采取不同的维系策略,如虚假用户的防范措施,欠真实性用户的补救措施 。
3)、客户细分模型