Pandas是Python数据分析的核心工具,通过DataFrame和Series两大数据结构实现高效数据清洗、转换与分析。其核心优势在于简洁的API设计、强大的缺失值处理能力以及与NumPy/Matplotlib的无缝集成,特别适合处理结构化表格数据。以下是关键操作指南:
-
安装与基础结构
通过pip install pandas
安装后,使用import pandas as pd
导入。核心对象DataFrame
(二维表格)和Series
(一维数组)支持从字典、列表或外部文件(如CSV)快速创建。例如:python复制
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]} df = pd.DataFrame(data)
-
数据查看与清洗
使用df.head()
预览数据,df.info()
检查数据类型,df.isnull().sum()
定位缺失值。通过df.dropna()
删除缺失行或df.fillna(0)
填充默认值,确保数据完整性。 -
数据选择与过滤
按列选择用df['列名']
,条件筛选如df[df['Age'] > 25]
。loc
和iloc
分别通过标签和位置索引行,例如df.loc[0]
获取首行。 -
数据运算与聚合
支持列间计算(df['Age'] + 5
)和统计函数(df.mean()
)。分组统计df.groupby('City')['Age'].mean()
可快速生成聚合结果,时间序列处理则依赖pd.to_datetime()
转换。 -
合并与导出
多表合并用pd.merge(df1, df2, on='key')
,保存结果通过df.to_csv('output.csv')
导出。结合Matplotlib
可直接绘制可视化图表。
掌握这些操作后,可高效完成80%的日常数据分析任务。建议从实际数据集(如销售记录或实验数据)入手练习,逐步探索Pandas更高级的功能如透视表和自定义函数应用。