使用Pandas读取Excel文件是数据分析中的基础操作,以下是关键步骤和注意事项:
一、安装依赖库
需安装Pandas及openpyxl(处理.xlsx文件)或xlrd(处理.xls文件):
pip install pandas openpyxl xlrd
二、基本读取方法
-
读取单个工作表
import pandas as pd df = pd.read_excel('data.xlsx', sheet_name='Sheet1') # 指定工作表名称 print(df.head()) # 查看前5行数据
- 默认读取第一个工作表(不指定
sheet_name
)。
- 默认读取第一个工作表(不指定
-
读取所有工作表
sheets_dict = pd.read_excel('data.xlsx', sheet_name=None) # 返回字典,键为工作表名 for sheet_name, sheet_data in sheets_dict.items(): print(f"工作表:{sheet_name}") print(sheet_data.head())
- 不推荐一次性读取所有工作表,后续操作复杂度较高。
三、进阶操作
-
处理编码问题
若遇到乱码,可指定
encoding
参数(如utf-8
)。 -
读取时跳过空行/列
使用
skiprows
和usecols
参数,例如:df = pd.read_excel('data.xlsx', skiprows=2, usecols='A:C') # 跳过前2行,读取A、B、C列
-
数据预览与信息查询
-
df.info()
:查看数据类型、非空值数等统计信息。 -
df.describe()
:生成数值型列的统计摘要。 -
df.head(n)
:查看前n行数据。
-
四、注意事项
-
文件路径 :确保文件路径正确,支持相对路径和绝对路径。
-
数据结构 :Excel表头可能跨多行,需手动解析列名(如使用
openpyxl
)。
通过以上方法,可高效读取并处理Excel文件中的数据,为后续分析奠定基础。