数据探索的目的是及早发现数据的一些简单规律或特征,数据清洗的目的是留下可靠的数据,避免脏数据的干扰。这两者没有严格的先后顺序,经常在一个阶段进行。
数据探索的核心
数据探索的核心是:
数据质量分析(跟数据清洗密切联系)数据特征分析(分布、对比、周期型、相关性、常见统计量等)
数据清洗实战
数据清洗可以按如下步骤进行:
1.缺失值处理(通过describe与len直接发现、通过0数据发现) 2.异常值处理(通过散点图发现) 一般遇到缺失值,处理方式为(删除、插补、不处理); 插补的方式主要有:均值插补、中位数插补 、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值等等。 遇到异常值,一般处理方式为视为缺失值、删除、修补(平均数、中位数等等)、不处理。