用Python合并多个Excel表格既高效又灵活,只需借助pandas库即可快速实现数据整合,适用于批量处理、自动化办公等场景。 以下是具体方法和注意事项:
-
安装必备工具
使用pip install pandas openpyxl
安装pandas和openpyxl库,后者用于处理Excel文件格式。确保所有待合并的Excel文件格式一致(如列名、数据类型),避免合并后数据混乱。 -
读取与合并数据
通过pd.read_excel()
逐个读取文件,再使用pd.concat()
合并。例如:python复制
import pandas as pd file_paths = ['file1.xlsx', 'file2.xlsx'] # 替换为实际文件路径 data_frames = [pd.read_excel(file) for file in file_paths] merged_data = pd.concat(data_frames, ignore_index=True)
-
处理常见问题
- 重复数据:用
merged_data.drop_duplicates()
删除重复行。 - 缺失值:通过
fillna()
填充或dropna()
删除缺失值。 - 多Sheet合并:指定
sheet_name
参数读取特定Sheet,如pd.read_excel(file, sheet_name='Sheet1')
。
- 重复数据:用
-
批量处理与优化
若文件较多,可用os.listdir()
自动获取文件夹内所有Excel文件:python复制
import os folder_path = 'path_to_folder' file_paths = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.xlsx')]
-
保存结果
合并后数据通过to_excel()
保存为新文件:python复制
merged_data.to_excel('merged_output.xlsx', index=False) # 不保留行索引
总结:Python合并Excel的核心是pandas的concat()
函数,结合文件批量处理和异常数据清洗,可大幅提升效率。建议合并前备份原始数据,并验证合并结果的完整性。