优草派  >   Python

Python如何对Excel数据清洗?使用方法看这里

罗西汉            来源:优草派

在使用python爬虫从网页抓取数据回来的时候经常会将其存储到Excel的表格文件中,但是存储进去数据很多都会存在格式不正确等问题。下面这篇文章会详细讲解python中如何对Excel进行数据清洗的方法,一起往下看看吧。

Python如何对Excel数据清洗?使用方法看这里

一、什么是数据清洗

数据清洗就是将数据文本中的一些冗余的、无效的值给去除掉,例如空格、空值、数据的格式等等都是要被清洗掉的值。

二、数据清洗方法

在python之中要对Excel表格文件进行数据清洗的话需要导入对其执行操作的库pandas,使用pandas进行数据清洗的方法有以下几种。

1.使用drop_duplicates方法清楚一列中重复的值,多用于唯一性处理,示例如下

# 导入pandas库并读取Excel文件数据
import pandas as pd
df = pd.DataFrame(pd.read_excel('data.xlsx'))    # 括号内的data是文件路径和文件名
# 从前往后的查找去除前面重复的值
df[”ID”]. drop_duplicates()    # id是列的名称

2.去除一个字段(某一列)中所有数据的空格,示例如下:

df['name'] = df['name'].map(str.strip)    # strip是字符串去除空格的方法

3.去除数据表值所有存在在空值,例如None、空等,示例如下:

df.dropna(how='any')

4.对某一个列中的具体值进行替换操作,多用于错误数据的更改,具体实例如下:

# 将name列中的包含Mary的单元格值替换为lisa
df['name'].replace('Mary', 'Lisa')

以上就是关于“Python如何对Excel数据清洗?使用方法看这里”的全部内容了,想要了解更多python的实用知识和代码示例可以在网页顶部栏目中找到python查看更多哦。

【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。
TOP 10
  • 周排行
  • 月排行