首页 > 编程知识 正文

数据分析表格怎么做,如何数据分析

时间:2023-05-04 11:53:16 阅读:53335 作者:4962

数据分析的数据处理(一)、缺失值处理数据确实主要包括记录丢失和字段信息丢失等情况,对数据分析影响较大的结果的不确定性导致更明显的缺失值的处理:记录删除/数据插值/导入importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromscipyimportstats # % matplotlibinline # step 1创建数据s=PD.seset 99 ) ) df=PD.data frame ({ ' value1' : [ 12,33,45,23,np.nan,NP ) ) ) NP np.nan,np.nan,' f

#step 2判断是否存在缺少值的数据: isnull # notnull# isnull (缺少值为true,缺少值为false ) notnull )未缺少值为false,未缺少值为true Series直接确定是否为缺少的值,并确定series print (' * * * * * * # data frame * * * * (n )、df.notnull ) ) ******(n数据帧

# step 3过滤器非缺失值S2=s [ s.is null (==false ) df2=df [ ' value2' ].not null ] ] print ((n * * * * S2 * ) ) )

# step 4删除缺失值-dropnas.dropna(inplace=true ) df2=df['value1'].dropna ) ) print('n****s删除缺失值* *

运行结果

# step 5填充缺少的数据——fillna#在未删除缺少的值之前,#fillna(value=none,method=None,axis=None,inplace=True,lininion downconce *Kwargs(value为填充值s.fillna(0,inplace=True ) ) print(' n******s )、填充缺少的数据(**********、s )、pad/ff )的backfill/bfill在随后的数据中使用df [ ' value 1 **

# step 6替换缺少的数据——替换#替换(to _ replace=none,value=None,inplace=False,limit=None,regex=False,) np.nan,np.nan,66,54,np.nan,99] ) s.replace ) s.replace ([ 1,2,3 ],np.nan,in place )

# step 7缺失值插值:均值/中值/众数插值、邻域插值、插值法#(1)均值、中值、众数插值s=PD.series ([ 1,2,3,np.nan,3,4,5,5,5 ] 中值mod=s.mode ) )最频值print ) (n平均值为%.2f,中值为%.2f '的inplace=true(print((n******平均填充(***** )

(2)邻域值插值s=PD.series ([ 1,2,3,np.nan,3,4,5,np.nan,np.nan,6,6,7,12,2,np.nan,3 in plan

from scipy.interpolateimportlagrange # (3)插值法——拉格朗日插值法x=[ 3,6,9 ] y=[ 10,8,4 ] print (la grange (x,y ) ) 'n插值是%.2f'%lagrange(x (

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。