首页 > 编程知识 正文

pandas 读取文件,python中的pandas库如何读数据

时间:2023-05-05 21:43:13 阅读:268525 作者:3746

  在数据挖掘的很多领域,数据内容往往以.data形式给出,因此读取data文件到矩阵中并对异常值进行处理就变得很重要了。
  一个data文件的截图:

该data文件为一个1567 X 590的矩阵,每一行代表一个样本。
操作步骤:

读取数据到矩阵中 先直接pd.read_csv(),然后通过输出了解到数据一共有多少列。 data = pd.read_csv('manifold/secom.data', sep=' ')print(data.shape[1])

输出590,于是我们知道了一共590列。但是这种读法默认会把第一行当成列索引。

完整读取数据 data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])data = np.array(data)

这样数据就变成了一个矩阵。

处理异常值nan 思路:求得每一列除nan以外数据的平均值,填充到这一列中是nan的地方。求取除nan以外数据的平均值,我的思路是先把这一列转成list,然后利用np.nanmean(list)函数,跳过nan求平均值。 temp = np.array(data)[:, i].tolist() #第i列转成listmean = np.nanmean(temp) #跳过nan求mean 填充 data[np.argwhere(np.isnan(data[:, i].T)), i] = mean#argwhere用于查找满足nan的位置

完整代码:

def load_file(): data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)]) data = np.array(data) for i in range(data.shape[1]): temp = np.array(data)[:, i].tolist() mean = np.nanmean(temp) data[np.argwhere(np.isnan(data[:, i].T)), i] = mean return data

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。