5.1 引言
现实世界数据是“肮脏的”,主要体现在数据不完整、含有噪声、不一致、重复、高维度等方面;
5.2 数据预处理的主要内容
5.2.1 数据审核
准确性审核
适用性审核
及时性审核
一致性审核
5.2.2 数据筛选
5.2.3 数据排序
5.3 数据预处理办法
网络安全数据的预处理至少包括三个过程:一是数据清洗;二是数据融合;三是数据关联。
我们常常用完整性、一致性和准确性三个因素来衡量数据质量。
5.4 数据清洗
网络安全数据清洗的过程大致为:将不同途径、不同来源、不同格式的安全数据进行格式转换、垃圾过滤、数据去重、格式清洗等操作去除“脏”数据。以网络攻击知识库、网络安全情报库、黑白名单库等为基础,在海量原始数据规整过程中同步进行数据标注,将异常、报警、威胁、五元组等关键信息标记出来,形成精准的基础安全数据。
5.4.1 不完整数据
人工填充
忽略元组
用全局常量填充
用属性中间值填充
用相似样本的属性中间值填充
用最可能的值填充:还可以使用各种推理模型和工具,如回归、贝叶斯形式化方法、决策树等进行归纳推理,得到可能性较大的推测值来预测不完整的元组的缺失属性值。
5.4.2 不一致数据
对于数据不一致的处理方法,有时也被称为数据集成。
5.4.3 噪声数据
噪声数据是指存在错误或异常的数据,也包括哪些难以被机器正确理解和翻译的数据。去除噪声以“光滑”数据的常用方法如下:
分箱,它是通过考察数据周围近邻的值来“光滑”有序数据值,这些有序的值被分布到一些“箱”中,每个“箱”中的数据值都可以替换为箱中所有数据的均值或者边界值。
回归
聚类
5.4.4 数据清洗过程
两步骤:
数据清洗过程中要做的第一件事是检测偏差;
数据清洗过程中要做的第二件事是数据规整;
5.4.5 数据清洗工具
ETL、sqoop
5.5 数据集成
数据集成就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合中,其核心任务是要将互相关联的分布式异构数据集成到一起,提供统一的数据接口,使用户能够以透明的方式访问这些数据源。
5.5..1 数据集成的难点
异构性
分布性
自治性
5.5.2 数据集成类型层次
1、基本数据集成
隔离
调和
指定
2、多级视图集成
3、模式集成
4、多粒度数据集成
5.5.3 数据集成方法模式
联邦模式
中间件模式
数据仓库模式
5.6 数据规约
网络安全数据规约属于数据融合的范畴,其大致过程中:按照数据的来源、类别、属性、时间等进行融合,形成来源明确、类别统一、属性一致、时间有序的源数据。结合ip特性、流量特征、行为特征等,对同类特征指标、同类行为规律的数据进行融合处理,形成在表达的内容、反映的效果、目标的指向性上具有共性的数据集。
对于真正的大型数据集来讲,在进行数据分析以前更可能采取一个中间的、额外的步骤----数据规约。数据规约,就是在尽可能保持数据原貌的前提下,最大限度的精简数据量。数据规约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。数据规约可用来得到海量数据集的规约表示,被规约的数据集虽小,但仍大致保持了数据的完整性。
5.6.1 特征规约
用于分析的数据集可能包含数以百计的特征,其中大部分特征可能与网络安全态势感知任务不相关或者是冗余的。特征规约是从原有的特征中删除不相关、弱相关或冗余的特征,或者通过对特征进行重组来减少特征的个数,进而找出最小特征集,使数据类的概率分布尽可能地接近所有特征得到的原分布。
5.6.2 维规约
不同于特征规约,维规约的主要目的是减少所考虑的随机变量或属性的个数,常用方法:小波变换和主成分分析法
5.6.3 样本规约
所谓样本规约,是指从完整的数据集中选出一个有代表性的样本的子集。
5.6.4 数量规约
数量规约是指用可替代的、较小的数据表示形式来替换原数据。
回归、对数-参数模型、直方图、聚类、数据立方体聚集。
5.6.5 数据压缩
5.7 数据变换
5.7.1 数据变换策略
光滑
属性构造
聚合
标准化
离散化
概念分层
5.7.2 数据变换处理内容
平滑处理
合计处理
泛化处理
5.7.3 数据变换方法
分箱方法
直方图分析方法
聚类、决策树和相关分析方法
标准化方法
概念分层方法
5.8 数据融合
5.8.1 数据融合与态势感知
数据融合也称信息融合,是指对多源数据进行多级别、多层次、多方面的集成、关联、处理和综合,以获得更高精度、概率或置信度的信息,并据此完成需要的估计和决策的信息处理的过程。
5.8.2 数据融合的层次分析
5.8.3 数据融合的相关算法