Python导入Excel数据主要通过pandas
库实现,核心方法是read_excel()
,支持.xls
、.xlsx
等格式,可灵活处理表头、多sheet等场景。
-
安装依赖库
使用前需安装pandas
和openpyxl
(或xlrd
兼容旧版.xls
)。通过命令pip install pandas openpyxl
一键安装,确保环境准备就绪。 -
基础数据读取
调用pd.read_excel("文件路径.xlsx")
即可加载数据为DataFrame。若需指定sheet,添加参数sheet_name="Sheet1"
;跳过表头用header=None
,自定义列名则传递names=["列1","列2"]
。 -
处理复杂需求
- 多sheet操作:通过
sheet_name=None
读取全部sheet,返回字典结构,键为sheet名,值为对应DataFrame。 - 筛选列数据:用
usecols=["A列","C列"]
或列索引(如usecols=
)选择性加载。 - 大数据优化:分块读取
chunksize=1000
减少内存占用,或导出为更高效的格式(如.parquet
)。
- 多sheet操作:通过
-
常见问题解决
遇到编码错误可指定encoding="utf-8"
;日期格式混乱时用parse_dates=["日期列"]
自动解析;缺失值处理通过na_values=["NA", "NULL"]
自定义标识符。
掌握这些方法后,Python可高效应对各类Excel数据导入需求,结合pandas
的清洗与分析功能,能快速完成数据预处理流程。