2008年WesMcKinney开发出的库
专门用于数据挖掘的开源python库
以Numpy为基础,借力Numpy模块在计算方面性能高的优势
基于matplotlib,能够简便的画图
独特的数据结构
增强图表可读性
便捷的数据处理能力
读取文件方便
封装了Matplotlib、Numpy的画图和计算
一维数据结构,类似于一维数组
创建
pd.Series(data=None, index=None, dtype=None)
通过已有数据创建
通过字典数据创建
属性
二维表格型数据结构,类似于二维数组或表格
行索引
列索引
创建
pd.DataFrame(data=None, index=None, columns=None)
通过已有数据创建
属性
shape
index
columns
values
T
.head(5)
.tail(5)
索引的设置
修改行列索引值
重设索引
reset_index(drop=False)
以某列值设置为新的索引
set_index(keys, drop=True)
三维数据结构
多级或分层索引对象
index属性
创建
存储3维数组
class pandas.Panel(data=None, items=None, major_axis=None, minor_axis=None)
panel数据要是想看到,则需要进行索引到dataframe或者series才可以
直接使用行列索引(先列后行)
结合loc或者iloc使用索引
使用ix组合索引
对DataFrame当中的close列进行重新赋值为1
形式
dataframe排序
df.sort_values(by=, ascending=) , 单个键或者多个键进行排序
by:指定排序参考的键
ascending:默认升序
df.sort_index给索引进行排序
Series排序
>
多个逻辑 &
逻辑运算函数
query(expr)
isin(values)
describe
统计函数

max(0 代表列求结果,1代表行求统计结果)
std() → 标准差
var() → 方差
median() → 中位数
idxmax() 求最大值的位置
idxmin() 求最小值的位置
累计统计函数

apply(func, axis=0)
kind
pandas.read_csv(filepath_or_buffer, sep =‘,’, usecols )
DataFrame.to_csv(path_or_buf=None, sep=', ’, columns=None, header=True, index=True, mode=‘w’, encoding=None)
HDF5文件的读取和存储需要指定一个键,值为要存储的DataFrame
pandas.read_hdf(path_or_buf,key =None,** kwargs)
DataFrame.to_hdf(path_or_buf, key, \kwargs)
优先选择使用HDF5文件存储
pandas.read_json(path_or_buf=None, orient=None, typ=‘frame’, lines=False)
DataFrame.to_json(path_or_buf=None, orient=None, lines=False)
如何处理nan
获取缺失值的标记方式
NAN
判断数据中是否包含nan
存在nan
没有使用nan
pd.isnull(df)
pd.notnull(df)
减少给定连续属性值的个数
连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值
qcut、cut实现数据分组
get_dummies实现哑变量矩阵
pd.concat([data1, data2], axis=1)
pd.merge(left, right, how=‘inner’, on=None)
可以指定按照两组数据的共同键值对合并或者左右各自
交叉表
透视表