对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。
导入数据 pd.read_csv(filename, dtype={‘Payment Transaction ID’:‘str’}):从CSV文件导入数据pd.read_table(filename):从限定分隔符的文本文件导入数据pd.read_excel(filename):从Excel文件导入数据pd.read_sql(query, connection_object):从SQL表/库导入数据pd.read_json(json_string):从JSON格式的字符串导入数据pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据 输出数据 pd.to_csv(path, index=True) 导出到CSV表格 增 删 查 判断dataFrame是否非空 # DataFrame 内置的属性,可以看到虽然调用简单,但他是最耗时的df.empty# 通过Python内置len方法判断 DataFrame 的行数,相对来说速度比较快,是第1种的3倍len(df)==0 # 判断 DataFrame 的行索引的值数量,这已经到达纳秒级别了,是其中最快的方式len(df.index)==0 改 查看、检查数据df:任意的Pandas DataFrame对象【比如pd的返回值】
s:任意的Pandas Series对象
https://blog.csdn.net/qq_33399185/article/details/60872853
Pandas中文网