数据挖掘中,海量的原始数据存在着大量不完整(缺失值)、不一致、有一场的数据,这会严重影响建模的效率和准确客观性,所以进行数据预处理尤其重要。数据预处理包括:数据清洗、集成、转换、规约操作。
数据清洗主要是删除原始数据集中的无关数据。重复数据。平滑噪声数据,筛选掉与挖掘主题无关的数据,处理确实值。异常值等。
方法分为三类:删除、插补、不处理
异常值处理方法分为:删除含有一场值得记录、视为缺失值然后用缺失值方法进行处理、平均值修正、不处理。
数据挖掘的数据往往存在不同的数据源中,数据继承就是将多个数据源合并存放在一个一致的数据存储的过程。 在数据继承的过程中,来自不同数据源的现实世界实体的表达形式是不同的,有可能存在不匹配的情况,要考虑到实体识别和属性冗余的问题,所以要将元数据在最低层上加以转换、提炼和集成。
实体识别指识别不同数据源在现实世界的实体,然后统一不同源数据的矛盾之处
数据源a的属性ID和数据源B的属性ID分别描述的是订单号和菜品单号
和同名异义相反
同一个实体属性描述用的是不同单位,一个距离单位是m,另一个是英尺。
数据继承之后容易导致数据冗余,例如: 1) 同一属性多次出现 2) 同一属性命名不一致导致重复, 对于这种冗余属性需要先分析,检测到之后进行删除。
数据变换主要是对数据进行规范化处理在,将数据转换成适当的形式,亦适用于挖掘任务及算法需要。
对源数据进行一些函数变换。
不同评价指标往往具有不同的量纲,数之间的差别很大。所以为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于综合分析。 数据规范化对于基于距离的挖掘算法尤为重要。 1) 最小-最大规范化,也称离差标准化 x=(x-min)/(max-min),将源数据进行线性变换,将数值映射到【0,1】之间 2)零-均值规范化,也会才能标准差标准化,经过处理符合正态分布。 x=(x-x(均值))/标准差 这是当前用得最多的数据标准化方法。 3)小数定标规范化 移动属性值的小数位数,将属性值映射到[-1,1]之间。
在大数据集上进行复杂的数据分析和挖掘会消耗大量时间。数据规约可以产生更小但保持数据完整性的新数据及,提高分析和挖掘的效率。 意义:1)降低无效、错误数据对建模的影响,提高建模的准确性 2) 少量具有代表性的数据将会大幅缩减数据挖掘所需的属性 3)降低储存数据的成本
通过合并属性来创建新属性,或者直接通过删除不相关的属性减少数据维数,从而提高数据挖掘效率,降低计算成本。 目标是寻找出最小的属性子集并确保数据自己的概率分布尽可能的接近原来数据记得概率分布。
数值规约通过选择替代的,较小的数据来减少数据量,包括有参数方法和无参数方法