数据预处理分为数据审查、数据筛选、数据排序
1.1 数据审查 数据审核要从数据的完整性和准确性两方面入手。 完整性主要是检查是否有遗漏 准确性主要是数据是否有错误 二手数据着重数据的适用性和时效性
1.2 数据筛选 数据筛选包括两方面内容: 一是将某些不符合要求的数据或有明显错误的数据予以剔除‘; 二是将符合某些特定条件的数据筛选出来,而不符合的将其剔除 1.3 数据排序 排序是按一定顺序进行排列,以便于研究者通过数据观察一系列的明显特征或趋势,找到解决问题的办法。 排序分为升序和降序。一般情况下,我们默认排序按照升序排列
2.1.1 分类数据的整理 分类数据本身就是对事物的一种分类,因此,在整理是除了列出来所分的类别外,还要计算出每一类别的频数、频率或比率 2.1.2 分类数据的图示 分类数据的图示:图示方法包括条形图、饼状图。 条形图一般来说根据用图的高度来表示各类别数据的大小。 饼状图一般来说是根据扇形图的面积来表示各类别数据的大小,并且表示该类别在整个数据所占的比例
2.2.1 顺序数据的整理 顺序数据的整理:顺序的整理与上面介绍的,如频数、比例、百分比、比率、条形图和饼图等,都适用于对顺序数据的整理与显示。但有些适用于顺序数据的整理与显示,而不适用于分类数据,比如可以累积频数和累积频率。 累积频数是将各有序类别或组的频数逐级累加起来得到的频数。 累积频率是将各有序类别或组的百分比频率逐级累加起来得到的频数。 2.2.2 顺序数据的图示 顺序数据的图示:包括累积频数分布图、环形图。累计图可以显示累积频数的变化趋势;环形图与饼状图类似,但又有所区别,饼状图只能表示一个总体样本的数据分布,而环形图可以表示多个总体样本的数据分布。
数据分组方法包括:单变量分组、组距分组(根据组距分别等距分组合非等距分组)。 数据分组步骤: 1.确定组数(可根据经验公式确定所分组数) 公式为:K=1+lgn/lg2 当然这里是经验公式,当数据足够大时,可根据数据的特点和分类需求,灵活确定公式。 2.确定各组的组距 组距一般是上限和下限的差值,然后除以组数。 3.根据分组整理成频数分布表
数值型数据的图示 上面介绍的条形图、饼图、环形图及累积分布图都适用于现实数值形数据,但也有一些对数值型的图方法示并不适用于顺序数据和分类数据
1.分组数据:直方图 表示频数分布的图形,是一个矩形的图形 2.未分组数据:茎叶图和箱线图 直方图主要是对分组数据的分布图示,而未分组二点数据用茎叶图和箱线图 (1)茎叶图由茎和叶组成,反应原始数据分布,茎一般来说是由高位数组成,而叶一般是保留最后一个数。 由经验表明茎叶图的行数一般为: 假设数据个数为n(20<=n<=200) L=[10lgn] (2)箱线图由最大值、最小值、中位数、两个四分位数(25%、75%)五个特征绘制组成。 箱线图由一个箱子和两条线段组成,一般反应数据特征的分布情况。 3.时间序列:线图 一般来说线图用来表示时间序列的数据,反应时间变化,对数据带来的变化趋势。 4.多变量数据:雷达图 一般雷达图是表示各个变量数据的分布情况。
统计表和统计图是统计数据的两种方式。
统计表主要由行标题、列表提、表头、数值组成,表外附加通常放在统计表的下方。 统计表的设计要和安排表的长度和宽度,并且安排位置要合理。
直方图与条形图有何区别? 直方图与条形图的区别:直方图更注重连续值图示时的大小变化,而条形图更注重类别数据的展示,不看重变化趋势。
绘制线型图是需要注意什么? 绘制线图时要注意该数据是否是时间序列数据,注重随着时间的推移,探索事物的发展趋势。
想了解和加入数据科学小组,欢迎关注公众号:数据科学家联盟。