第五章 网络安全数据预处理

mac2022-06-30  24

5.1 引言

现实世界数据是“肮脏的”,主要体现在数据不完整、含有噪声、不一致、重复、高维度等方面;

5.2 数据预处理的主要内容

5.2.1 数据审核

准确性审核

适用性审核

及时性审核

一致性审核

5.2.2 数据筛选

5.2.3 数据排序

5.3 数据预处理办法

网络安全数据的预处理至少包括三个过程:一是数据清洗;二是数据融合;三是数据关联。

我们常常用完整性、一致性和准确性三个因素来衡量数据质量。

5.4 数据清洗

网络安全数据清洗的过程大致为:将不同途径、不同来源、不同格式的安全数据进行格式转换、垃圾过滤、数据去重、格式清洗等操作去除“脏”数据。以网络攻击知识库、网络安全情报库、黑白名单库等为基础,在海量原始数据规整过程中同步进行数据标注,将异常、报警、威胁、五元组等关键信息标记出来,形成精准的基础安全数据。

5.4.1 不完整数据

人工填充

忽略元组

用全局常量填充

用属性中间值填充

用相似样本的属性中间值填充

用最可能的值填充:还可以使用各种推理模型和工具,如回归、贝叶斯形式化方法、决策树等进行归纳推理,得到可能性较大的推测值来预测不完整的元组的缺失属性值。

5.4.2 不一致数据

对于数据不一致的处理方法,有时也被称为数据集成。

5.4.3 噪声数据

噪声数据是指存在错误或异常的数据,也包括哪些难以被机器正确理解和翻译的数据。去除噪声以“光滑”数据的常用方法如下:

分箱,它是通过考察数据周围近邻的值来“光滑”有序数据值,这些有序的值被分布到一些“箱”中,每个“箱”中的数据值都可以替换为箱中所有数据的均值或者边界值。

回归

聚类

5.4.4 数据清洗过程

两步骤:

数据清洗过程中要做的第一件事是检测偏差;

数据清洗过程中要做的第二件事是数据规整;

5.4.5 数据清洗工具

ETL、sqoop

5.5 数据集成

数据集成就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合中,其核心任务是要将互相关联的分布式异构数据集成到一起,提供统一的数据接口,使用户能够以透明的方式访问这些数据源。

5.5..1 数据集成的难点

异构性

分布性

自治性

5.5.2 数据集成类型层次

1、基本数据集成

隔离

调和

指定

2、多级视图集成

3、模式集成

4、多粒度数据集成

5.5.3 数据集成方法模式

联邦模式

中间件模式

数据仓库模式

5.6 数据规约

网络安全数据规约属于数据融合的范畴,其大致过程中:按照数据的来源、类别、属性、时间等进行融合,形成来源明确、类别统一、属性一致、时间有序的源数据。结合ip特性、流量特征、行为特征等,对同类特征指标、同类行为规律的数据进行融合处理,形成在表达的内容、反映的效果、目标的指向性上具有共性的数据集。

 

对于真正的大型数据集来讲,在进行数据分析以前更可能采取一个中间的、额外的步骤----数据规约。数据规约,就是在尽可能保持数据原貌的前提下,最大限度的精简数据量。数据规约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。数据规约可用来得到海量数据集的规约表示,被规约的数据集虽小,但仍大致保持了数据的完整性。

5.6.1 特征规约

用于分析的数据集可能包含数以百计的特征,其中大部分特征可能与网络安全态势感知任务不相关或者是冗余的。特征规约是从原有的特征中删除不相关、弱相关或冗余的特征,或者通过对特征进行重组来减少特征的个数,进而找出最小特征集,使数据类的概率分布尽可能地接近所有特征得到的原分布。

5.6.2 维规约

不同于特征规约,维规约的主要目的是减少所考虑的随机变量或属性的个数,常用方法:小波变换和主成分分析法

5.6.3 样本规约

所谓样本规约,是指从完整的数据集中选出一个有代表性的样本的子集。

5.6.4 数量规约

数量规约是指用可替代的、较小的数据表示形式来替换原数据。

回归、对数-参数模型、直方图、聚类、数据立方体聚集。

5.6.5 数据压缩

5.7 数据变换

5.7.1 数据变换策略

光滑

属性构造

聚合

标准化

离散化

概念分层

5.7.2 数据变换处理内容

平滑处理

合计处理

泛化处理

5.7.3 数据变换方法

分箱方法

直方图分析方法

聚类、决策树和相关分析方法

标准化方法

概念分层方法

5.8 数据融合

5.8.1 数据融合与态势感知

数据融合也称信息融合,是指对多源数据进行多级别、多层次、多方面的集成、关联、处理和综合,以获得更高精度、概率或置信度的信息,并据此完成需要的估计和决策的信息处理的过程。

5.8.2 数据融合的层次分析

5.8.3 数据融合的相关算法

 

最新回复(0)