Python提取数据中的部分数据主要通过索引、切片、条件筛选和函数(如pandas
库)实现,核心方法包括:列表/字符串切片、pandas
的loc/iloc
、正则表达式匹配以及自定义过滤逻辑。以下是具体方法:
-
基础切片与索引
对列表、字符串或NumPy数组,直接用[start:end:step]
切片。例如,data[2:5]
提取第3到第5个元素,text[-3:]
获取末尾3个字符。 -
Pandas高效筛选
loc
/iloc
:df.iloc[1:3, 0:2]
选取行1-2和列0-1的数值,df.loc[df['age'] > 30]
按条件筛选行。query()
方法:df.query("price > 100 & category == 'A'")
简化复杂条件。
-
正则表达式提取文本
用re
模块匹配模式,如re.findall(r'\d+', text)
提取所有数字,适合非结构化文本(如日志或网页数据)。 -
自定义函数与Lambda
结合apply()
或列表推导式,例如df[df.apply(lambda x: x['score'] >= 80, axis=1)]
筛选分数≥80的行。
提示:根据数据量选择工具——小数据用原生切片,大数据优先pandas
;处理文本时,正则表达式或str
方法更灵活。