首页 > 编程知识 正文

下列哪种建模方法也称灰箱问题,哪种建模软件最好用

时间:2023-05-04 13:26:28 阅读:58918 作者:3810

与z robot首席执行官乔扬合作,为大家带来了“企业级信用评价模式”系列课程的第二课。 这次课程的乔杨老师主要介绍了建模的主要方法和应用应注意的情况。 以下是这次路线的一部分干货。

建模方法主要分为非监督式学习、监督式学习、以及一些其它的组合性的学习方法如下图所示。

我们来简要分析一下常见的建模方法。

一、主成分分析、因子分析、变量类聚分析

在实际建模过程中,进行主成分分析、因子分析、变量系统聚类分析。 三种方法的理论基础与实际应用非常相似,是减少变量数量的统计技术,特此介绍。

在模型开发过程中,数据集合包含成百上千个具有一定预测能力的变量,对这些变量进行逐一分析需要大量的时间和精力,但获得的边际收益非常小。 因为许多变量之间有很高的相关性,反映了潜在的公共信息维。以统计学的术语来讲,这些潜在的共同信息维度在主成分分析中称为主成分,在因子分析中称作因子,在变量类聚分析汇总称为类聚。

举例来说,最近的拖欠历史是我们潜在的信息维度,但是很多变量都可以表示这个维度,比如过去三个月中一期以上的拖欠次数,过去三个月中两期以上的拖欠次数等等。 因为这些信息高度重叠,所以可以用一个变量表示那个维,不会丢失什么有用的信息。

那选择代表变量的标准是什么呢?

该变量与其所属的信息维度尽可能的高度相关,而与其他信息维度尽可能的低度相关。信息维度的多少可以由r统计程序根据一定的统计指标自动确定,也可以由我们建模人员根据实际需要主观确定。

太多的信息维度会减少丢失的信息量,但数量变量太多,可能无法充分达到减少变量、节省时间和精力的目的。 相反,如果信息维太少,保留的变量也会减少,从而有效地节省时间和精力,但可能会丢失过多的信息量。 所以,它是一个需要平衡的过程。

优缺点如下:

二、类聚分析

聚类分析是一种基于数据进行搜索的统计方法,是一种基于数据视点之间的相似性对数据进行自然分组的机制,这种分组被称为聚类。 例如,在信用卡客户中,循环信用用户倾向于分为同一类别,而交易用户倾向于分为另一类别。

聚类的分类结果取决于分析中使用的变量的相似性的定义、对聚类数多少的要求。在实践中,最常用的列举方法有等级性类聚和非等级性类聚,等级性类聚一般呈树形,通常几个下位类聚构成一个上位类聚。 等级聚会可以通过一系列合并或分裂来获得。

非聚类通常旨在将所有数据观测点分成k个不同的类,并最小化聚类中数据观测点之间的总距离。

通常我们用的k-means的方法就是这样一种类聚方法。首先将所有数据观测点分配给k个第一个集群,然后在每次重新分组时计算各观测点与各集群中心之间的距离。 根据距离的大小,观测点保留在原始集群上或者被重新分配给最近的集群,并且集群中心(即平均距离)被更新。 这个重新分配的过程继续

类别分析常常被应用于市场营销,通过对消费者进行分类,可以发现消费者的行为特征和消费偏好,有针对性地制定营销战略,发布营销信息等。

优缺点如下:

三、回归分析

回归分析是决定变量和变量之间依存关系的数据方法的总称。 分为线性回归、逻辑回归、多项式回归、非线性回归4类。

做回归分析的时候,有两个关键因素:函数形式、参数估计。回归类模型中,最常用的是逻辑回归模型,也是目前金融信用领域应用最广泛的分析方法。

它跟线性回归模型的区别在于:

1 .逻辑回归模型的目标变量为二元性,而线性回归模型的目标变量为连续性。

2 .逻辑回归模型的预测结果是零与一之间的概率,但线性回归模型的预测结果可以是任何数字。

3 .逻辑回归模型预测结果与自变量之间不是线性关系,而线性回归模型预测结果与自变量之间是线性关系。

.

在选择预测变量进入逻辑回归模型的方法上,可以由建模人员根据统计指标和经验人为做选择,也可以由逻辑回归中的stepwise做自动选择。

Stepwise包含几种自动选择功能:前进型选择,模型不再包含参数,在模型优化之前,在每个步骤中添加对模型编辑最有贡献的参数; 后退删除在每个步骤中删除对模型编辑最有贡献的自变量值,直到模型首先包含所有候选参数,且模型达到最佳状态。 选择同时包含前进和后退类型的复杂类型,然后添加或删除参数到模型

达到最优。

Stepwise自动选择功能也具备一定的优缺点,优点可以说非常明显,它可以自动选择一组统计上合理的变量组成回归模型,可以对潜在的自变量进行试用,从中获得对自变量预测能力和相关性的洞察力。此外,还可以快速方便地对大量的候选自变量进行自动筛选。

缺点则在于,当自变量具备较高的相关性时,它会选择一些高相关性变量同时进入模型,一正一负地在一定程度上互相抵消影响,造成模型的不合理性。同时它对样本数据的敏感度高,存在一定的过度微调的可能,因此模型的稳定性和抗震荡性可能不够高,需要分析人员进行一些人工的调整。

逻辑回归模型的优缺点:

四、决策树模型

决策树模型是对总体进行连续地分割以预测一定目标变量结果的统计技术。一般包含若干层次的枝叶,同一枝叶内的个体非常相似,目标变量值接近;而不同枝叶之间的个体则存在较大的不相似性,也就是目标变量值相差较远。

我们以市场反应为例,作为我们的目标变量的决策树模型例子,总体样本是10万个,市场总体反应率是6%。通过决策树算法,我们发现,第一个最佳的分割变量是信用额度的使用率,使用率小于50%的市场反应率是3%,而使用率大于等于50%的市场反应率是8%,可以看到两者的目标变量值有很大的差距。

对于使用率小于50%的样本组,下一个最佳分割变量是已有信用卡的张数,已有信用卡张数小于3的,反应率只有1%,显示这样的消费者对信用卡不感兴趣; 而已有信用卡大于等于3的,反应率为9%,显示消费者对信用卡有比较浓厚的兴趣。

而对使用率大于等于50%的样本组,下一个最佳分割变量是最近的信用卡申请查询次数。查询次数为0的反应率仅为2%,这是非常容易理解的,因为用户没有积极寻求新的信用;而查询次数大于等于4的,反应率高达15.25%,表示用户不仅大量信用且在迫切寻求新的信用,所以反应率极高。这样继续分割下去,直到达到停止分割的条件为止。

决策树模型可以对个体进行分割和预测,发现同质性的个体群从中得到洞察力,可以用来制定市场营销、风险管理等各方面的策略。

决策树模型的优缺点:

二分类模型的评估指标

考虑二分问题,可以将实例分成正类和负类两种。对于一个二分问题会出现四种情况,一是实例是正类,并且被预测成正类,即为真正类;如果实例是负类被预测成正类,称之为假正类。相应地,如果实例是负类被预测成负类,称之为真负类;正类被预测成负类则称为假负类。

我们对四类进行一个总结:

下面我们对这四类进行一个图表展示,并引入两个新名词。

二分类模型的输出其实是一个连续结果,反映的是与每个分类(通常是1)的相似程度或发生概率或排序能力。在实际运用中,需要确定一个阀值,比如说0.6,大于这个值的实例划归为“1”类,小于这个值则划到“0”类中。如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正例占所有正例的比例,即TPR,但同时也将更多的负实例当作了正实例,即提高了FPR。

为此,我们得出结论:对于同一个分类器,调整不同的阈值,只能同时提高TPR和FPR;为了对目标进行更好地区分需要改进分类器。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。