本文最后更新于 145 天前,其中的信息可能已经有所发展或是发生改变。
1. 脏数据
1. 定义
- 形式上:
- none,nan,null
- 一般情况下不影响,但是机器人学习需要去掉
- 内容上:
- 异常值/int(str)
2. 解决方法
数据探索- 数据探查 – 数据清理
1. 去重
serl
.unique()去重.duplicated()找出重复的数据.drop_duplicates()同上,并丢弃value_counts()统计每个数据出现多少次
2. 处理空值/无效值
探测:
isnull()/notnull(): 检查是否有空值,返回布尔值- t和f同时出现代表有问题
处理方式:
-
数据量多时直接删除
dropna():删除空值
-
数据量少时填充(均值,固定值,众数)<- 直接填充 (前向,后向):
fillna(): 填充空值fillna(method=''):- 前向:
ffill - 后向:
bafill - 前边的数据填充
- 前/后 没有数值就无法填充
- 前向:
3. 排序
- 对标签:
sort_index - 对值:
sort_values