pandas详细用法

mac2025-01-27  24

DataFrame(数据框)必须掌握的函数

导入数据

pd.read_csv(filename):从csv文件导入数据 pd.read_table(filename):从限定分隔符的文本文件导入数据 pd.read_excel(filename):从excel导入数据 pd.read_html(url): 解析url、字符串或者html文件,抽取其中的tables表格

选择数据

df[col]:根据列名,并以series的形式返回列 df[col1,col2]:以dataframe形式返回多列 s.iloc[0]:按位置选取数据 s.loc['index]:按索引选取数据 df.iloc[0,:]:返回第一行 df.iloc[0,0]:返回第一行的第一个元素

查看数据与统计变量

df.describe():查看数据列值得汇总统计 df.mean():返回所有列的均值 df.corr():返回列与列之间的相关系数 df.count():返回每一列中的非空值的个数 df.max():返回每一列的最大值 df.min():返回每一列的最小值 df.median():返回每一列的中位数 df.std():返回每一列的标准差

数据处理

df.columns=[‘a’,‘b’,‘c’]:重命名列名 pd.isnull():检查dataframe对象中的控制,并返回一个boolean数组 pd.notnull():检查dataframe对象中的非空值,并返回一个boolean数组 df.dropna():删除所有包含空值的行 df.dropna(axis=1):删除所有包含空值的列 df.fillna(x):用x替换dataframe对象中所有的空值 s.astype(float):将series中的数据类型更换为float类型 s.replace(1,‘one’):用one代替所有等于1的值 s.replace([1,3],[‘one’,‘three’]):用one代替1,用three代替3 df[df[col]>0,5]:选择col的值大于0.5的行 df.sort_values(col1):按照col1排序数据,默认升序排列 df.sort_values(col2,ascending=False):按照col1降序排序数据 df.groupby(col):返回一个按列col进行分组的groupby对象 df.pivot_table(index=col1,values=[col2,clo3],aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表 data.apply(np.mean):对dataframe中的一列应用函数np.mean

最新回复(0)