是个问题。 在CSDN中如何编辑公式?
XGBoost算法是从GBDT算法发展而来的,GBDT算法在求解优化问题时应用了一阶微分技术,而XGBoost不仅使用了损耗函数的一阶微分和二阶微分,
也可以自己定义损失函数。 自己定义损耗函数的前提是损耗函数可以一阶导和二阶导。
XGBoost算法的原理: (一定保证先学习决策树算法)其实算法的原理是不断在一个决策树中添加树,比如在n-1棵树中添加树成为n棵树的同时算法精度提高,效果更好
基础理解:
损耗函数:L(yi,yi^ ) (yi-yi^ ) *2)在此,损耗函数以色散损耗为例。 因为容易计算和符号表达,所以这个也很好。 当然损失函数可以变更】
如何优化? (f* ) x )=argmine(x,y ) (l ) y,f ) x ) )
最终,集成算法显示: yi^=sum(fk(Xi ); 其中k=1~K; fk属于f
yi0^=0
(Yi1^=F1(Xi )=yi0 ^ f1 (Xi ) ) () ) ) ) ) ) ) 652 )
(y2^=F1(Xi ) F2 ) Xi )=yi1 ^ F2 (Xi ) ) ) ) ) ) ) 65
.
yin^=sum(fk(Xi ) )=yi{n-1}^fn ) Xi ); 但是,k=1~n。
推导过程:在样品中着手计算,样品真值yi、预测值yi^。
在目标:obj{t}=sum(L(yi,yi^{t-1}ft ) Xi ) ) c中,c是常数,i=1~n至n,u ) ft是L2正则化的罚函数
(明确地说L2正则项:QtLambad*1/2*sum(wj**2) )其中j=1~T到t; qT是某个常数,t是叶节点的个数)
知识补充:
可靠的整子展开3360f(xx ) (f ) x ) f ) x )的一阶导(x ) f ) x )的二阶导定义:gi=g(y(t-1 ) ^}*L ) yi,y ) t-1 } hi gi是一次导,hi是二次导。 因此,目标函数变换由obj{t}~sum(l(yi,yi{t-1}^ ) gi * ft (Xi )1/2* hi * ft (Xi ) **2); 但i=1~n。 实际上,L(yi,yi{t-1}^ )一次也不变,收敛于某个特定的常数,因此相当于常数值。
重新转换:得到obj{t}~sum(gi*ft(Xi )1/2* hi * ft (Xi ) *2) u ) ft ); 但i=1~n。
将示例中的遍历计算转换为叶节点中的遍历计算: obj{t}=sum((sum(gi,I属于Ij ) wj1/2* ) sum(hi,I属于Ij ) lambad ) * wj**2
最终目标函数简化为:obj{t}=sum(gj*wj1/2* ) HJlambad ) * wj**2) qT; 其中gj=sum(gi,I属于Ij ),gj=sum(gi,I属于Ij )。
求最终目标函数:一致操作:求偏导数,偏导数为0,代入原函数;
对j(ft ) wj求偏导数=gj(HJlambad ) wj=0wj=-)=gj(HJlambad )如果将wj带回原始obj(t )最终目标函数,则obj=-1/2*sum ) gj 添加新节点时模型复杂性的代价是:gain=1/2*(g(l ) *2/) h ) lambad(- ) r ) *2/(h ) r ) lambad(- ) l ) r )
XG boost的思路总结:1 .根据数据集初始化一棵树2 .确定损耗函数3 .提取树作为引导“样本遍历计算”的过程,通过函数变换得到“叶节点上的遍历计算”,进行模型4 .虽然可以根据计算所得模型的复杂度设置复杂度阈值,但如果计算资源成本过大,也不太好。
在wl包中安装XG boost后,在import中部署即可使用
其中,xgboost模块的XGBClassifier类是分类问题的解决,XGBRegressor类是回归问题的解决。
XG boost.xgbclassifier (max _ depth=3,learning_rate=0.1,n_estimators=100,silent=True,objective=‘biective’
nthread=None,gamma=0,min_child_weight=1,max_delta_step=0,subsample=1,colsample_bytree=1,
reg_lambda=1,scale_pos_weight=1,base_score=0.5,ran
dom_state=0,seed=None,missing=None)xgboost.XGBRegressor(max_depth=3,learning_rate=0.1,n_estimators=100,silent=True,objective=‘binary:linear’,booster=‘gbtree’,n_jobs=1, nthread=None,gamma=0,min_child_weight=1,max_delta_step=0,subsample=1,colsample_bytree=1,colsample_bylevel=1,reg_alpha=0,reg_lambda=1,
scale_pos_weight=1,base_score=0.5,random_state=0,seed=None,missing=None)
读取数据:
import pandas as pdcreditcard = pd.read_csv(r'creditcard.csv')creditcard.head(5)查看各类别的标签比例:
#探索查看各类别的比例差异import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = False# 为确保绘制的饼图为圆形,需执行如下代码plt.axes(aspect = 'equal')# 统计交易是否为欺诈的频数counts = creditcard.Class.value_counts()# 绘制饼图plt.pie(x = counts, # 绘图数据 labels=pd.Series(counts.index).map({0:'正常',1:'欺诈'}), # 添加文字标签 autopct='%.2f%%' # 设置百分比的格式,这里保留一位小数 )# 显示图形plt.show()在28w条交易数据中、欺诈交易仅占0.17%,两个类别的比例存在严重的不平衡。
如果直接建模则模型的准确率会偏向多数类别的样本,而正确预测交易为欺诈的概率几乎为0.所以,需要使用SMOTE算法转换为相对平衡的数据:
使用默认参数直接建模:(也可以进行交叉验证以及其它方式找出最优参数,但我的目的是想看一下处理非平衡数据以及不处理非平衡数据会是怎么样的一种对比)
from sklearn import metricsimport xgboostimport numpy as np# 构建XGBoost分类器xgboost = xgboost.XGBClassifier()# 使用重抽样后的数据,对其建模xgboost.fit(over_samples_X,over_samples_y)# 将模型运用到测试数据集中resample_pred = xgboost.predict(np.array(X_test)) #传入的是array# 返回模型的预测效果print('模型的准确率为:n',metrics.accuracy_score(y_test, resample_pred))print('模型的评估报告:n',metrics.classification_report(y_test, resample_pred))计算欺诈交易的概率值,用于生成ROC曲线的数据:
y_score = xgboost.predict_proba(np.array(X_test))[:,1]fpr,tpr,threshold = metrics.roc_curve(y_test, y_score)# 计算AUC的值roc_auc = metrics.auc(fpr,tpr)# 绘制面积图plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')# 添加边际线plt.plot(fpr, tpr, color='black', lw = 1)# 添加对角线plt.plot([0,1],[0,1], color = 'red', linestyle = '--')# 添加文本信息plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)# 添加x轴与y轴标签plt.xlabel('1-Specificity')plt.ylabel('Sensitivity')# 显示图形plt.show()利用不平衡数据建模进行对比一下
# 构建XGBoost分类器import xgboostxgboost2 = xgboost.XGBClassifier()# 使用非平衡的训练数据集拟合模型xgboost2.fit(X_train,y_train)# 基于拟合的模型对测试数据集进行预测pred2 = xgboost2.predict(X_test)# 混淆矩阵pd.crosstab(pred2,y_test) # 返回模型的预测效果print('模型的准确率为:n',metrics.accuracy_score(y_test, pred2))print('模型的评估报告:n',metrics.classification_report(y_test, pred2))计算欺诈交易的概率值,用于生成ROC曲线的数据:
y_score = xgboost2.predict_proba(X_test)[:,1]fpr,tpr,threshold = metrics.roc_curve(y_test, y_score)# 计算AUC的值roc_auc = metrics.auc(fpr,tpr)# 绘制面积图plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')# 添加边际线plt.plot(fpr, tpr, color='black', lw = 1)# 添加对角线plt.plot([0,1],[0,1], color = 'red', linestyle = '--')# 添加文本信息plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)# 添加x轴与y轴标签plt.xlabel('1-Specificity')plt.ylabel('Sensitivity')# 显示图形plt.show()AUC值一个是0.98,一个是0.97,虽然处理非平衡数据过后只是提升了0.01,但是也算是得到了优化。
希望大家能多多给予意见和建议。谢谢。
欢迎加入QQ群一起学习和交流,只为学习和交流:275259334
或者直接扫码加入: