这行代码让我疑惑,它究竟是什么意思呢?
print(clf.predict(x_test)) # 返回预测标签就是预测值是哪些
print(clf.predict_proba(x_test)) # 返回预测属于某标签的概率就是属于某类预测值的概率是多少
而对于[:,1]
是取二维数组中第二维的所有数据
举个例子:
y_train_prob = clf.predict_proba(X_train)[:, 1]
print("clf.predict_proba(X_train)")
print(clf.predict_proba(X_train))
print("clf.predict_proba(X_train)[:, 1]")
print(y_train_prob)
输出是:
含义是:预测X_rain[1. 0. 1. ... 0. 1. 0.]的标签是0的概率为0.94005474 ,为1的概率为0.05994526
个人思考:在2分类中,clf.predict_proba(X_train)[:, 1] 是取标签为1的概率,来画ROC曲线。其实笔者认为取【:,0】和取【:,1】是一样的,因为从上面一段话可以看出,0的概率+1的概率=1。都可以用来计算ROC曲线,只不过一个是正的一个是负的ROC。ROC只需要计算真正值和伪正值即可。笔者的具体实验结果对比如下:
ROC曲线对比 取 [:,1]取 [:,0]如果与笔者思考有异,欢迎和笔者在留言区讨论 ~