Python绘制混淆矩阵并进行归一化

本文将详细介绍如何使用Python编程语言绘制混淆矩阵，并对其进行归一化处理。混淆矩阵是评估分类算法性能的重要工具之一，而归一化则可以将混淆矩阵的结果更直观地呈现出来。

一、混淆矩阵介绍

混淆矩阵是用于衡量分类模型在测试集上的预测准确性的矩阵。它展示了实际类别与模型预测类别之间的对应关系。混淆矩阵通常是一个 N x N 的矩阵，其中 N 表示类别的数量。

混淆矩阵通常由四个元素构成：真正例（True Positive，TP）、真反例（True Negative，TN）、假正例（False Positive，FP）、假反例（False Negative，FN）。通过对这些元素进行计数，可以得到一个完整的混淆矩阵。

二、绘制混淆矩阵

Python中有多种方法可以绘制混淆矩阵，其中最常用的是使用混淆矩阵函数（confusion_matrix）和热力图函数（heatmap）。

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix

# 定义真实标签和预测结果
y_true = [0, 1, 0, 1, 0]
y_pred = [0, 1, 1, 0, 1]

# 计算混淆矩阵
cm = confusion_matrix(y_true, y_pred)

# 绘制热力图
sns.heatmap(cm, annot=True, cmap="Blues", fmt="d")
plt.xlabel("Predicted")
plt.ylabel("True")
plt.show()

以上代码使用sklearn库中的confusion_matrix函数计算混淆矩阵，并使用seaborn库中的heatmap函数进行热力图绘制。首先，我们定义了真实标签（y_true）和预测结果（y_pred），然后调用confusion_matrix函数计算混淆矩阵。最后，使用heatmap函数将混淆矩阵以热力图的形式展示出来。

三、混淆矩阵归一化

混淆矩阵归一化是一种将混淆矩阵中的数字转化为比例形式的方法，以便更直观地观察不同类别的预测结果。最常用的归一化方法是行归一化和列归一化。

1. 行归一化

行归一化指的是将混淆矩阵的每一行除以该行的总和，以得到每个类别的预测比例。

# 计算行归一化后的混淆矩阵
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

# 绘制归一化后的热力图
sns.heatmap(cm_normalized, annot=True, cmap="Blues")
plt.xlabel("Predicted")
plt.ylabel("True")
plt.show()

以上代码将混淆矩阵的每一行除以该行的总和，得到行归一化后的混淆矩阵。然后，使用heatmap函数将归一化后的混淆矩阵以热力图的形式展示出来。从热力图可以更直观地观察到每个类别的预测比例。

2. 列归一化

列归一化指的是将混淆矩阵的每一列除以该列的总和，以得到每个预测类别在各个真实类别中的比例。

# 计算列归一化后的混淆矩阵
cm_normalized = cm.astype('float') / cm.sum(axis=0)

# 绘制归一化后的热力图
sns.heatmap(cm_normalized, annot=True, cmap="Blues")
plt.xlabel("Predicted")
plt.ylabel("True")
plt.show()

以上代码将混淆矩阵的每一列除以该列的总和，得到列归一化后的混淆矩阵。然后，使用heatmap函数将归一化后的混淆矩阵以热力图的形式展示出来。从热力图可以更直观地观察到每个预测类别在各个真实类别中的比例。

四、总结

本文介绍了使用Python绘制混淆矩阵并进行归一化的方法。混淆矩阵可以帮助我们评估分类算法的性能，而归一化可以更加直观地呈现混淆矩阵的结果。通过使用混淆矩阵函数和热力图函数，我们可以方便地绘制混淆矩阵并进行归一化处理。

希望本文对您了解混淆矩阵的绘制和归一化方法有所帮助！