Python筛选两个Excel文件的核心方法是使用pandas库进行数据读取、合并和条件筛选,关键步骤包括:加载Excel文件、数据对齐、条件过滤以及结果保存。
-
读取Excel文件
使用pandas.read_excel()
函数分别加载两个Excel文件,生成DataFrame对象。例如:pythonCopy Code
df1 = pd.read_excel('file1.xlsx') df2 = pd.read_excel('file2.xlsx')
-
数据合并与对齐
通过merge()
或concat()
函数整合数据。若需关联特定列(如ID),可用合并操作:pythonCopy Code
merged_df = pd.merge(df1, df2, on='共同列名', how='inner')
-
条件筛选目标数据
按需求用逻辑表达式过滤数据。例如筛选df1
中存在于df2
的数据:pythonCopy Code
result = df1[df1['列名'].isin(df2['列名'])]
-
导出结果到新Excel
将筛选结果保存为新文件:pythonCopy Code
result.to_excel('output.xlsx', index=False)
提示:处理大数据时可通过chunksize
分块读取,避免内存不足。确保安装openpyxl
或xlrd
库以支持Excel操作。