在使用python爬虫从网页抓取数据回来的时候经常会将其存储到Excel的表格文件中,但是存储进去数据很多都会存在格式不正确等问题。下面这篇文章会详细讲解python中如何对Excel进行数据清洗的方法,一起往下看看吧。
一、什么是数据清洗
数据清洗就是将数据文本中的一些冗余的、无效的值给去除掉,例如空格、空值、数据的格式等等都是要被清洗掉的值。
二、数据清洗方法
在python之中要对Excel表格文件进行数据清洗的话需要导入对其执行操作的库pandas,使用pandas进行数据清洗的方法有以下几种。
1.使用drop_duplicates方法清楚一列中重复的值,多用于唯一性处理,示例如下
# 导入pandas库并读取Excel文件数据 import pandas as pd df = pd.DataFrame(pd.read_excel('data.xlsx')) # 括号内的data是文件路径和文件名 # 从前往后的查找去除前面重复的值 df[”ID”]. drop_duplicates() # id是列的名称
2.去除一个字段(某一列)中所有数据的空格,示例如下:
df['name'] = df['name'].map(str.strip) # strip是字符串去除空格的方法
3.去除数据表值所有存在在空值,例如None、空等,示例如下:
df.dropna(how='any')
4.对某一个列中的具体值进行替换操作,多用于错误数据的更改,具体实例如下:
# 将name列中的包含Mary的单元格值替换为lisa df['name'].replace('Mary', 'Lisa')
以上就是关于“Python如何对Excel数据清洗?使用方法看这里”的全部内容了,想要了解更多python的实用知识和代码示例可以在网页顶部栏目中找到python查看更多哦。