统计学学习第一周

mac2026-01-15  4

一、统计学学习

统计学课程

一般的我们在分析前都会对数据质量做些简单衡量,以能够确保我们分析结果的有效性。这时我们可以用数理统计知识来衡量我们数据的质量,利用均值、方差、标准差、协方差等衡量数据的集中、离散,更甚者衡量元素之间的相关性。 比如说,一年一度都会发布一项我们比较关注的数据,某某行业的平均工资,这时我们就会说:不好意思我们又拉了后腿。其实这里的平均工资,对我们这样的人来说是被平均了。如果你懂得一些数据分析的基本方法,又或者你知道或者读过一些分析方面的文章,这时你就可以这样说这也没什么大不了,毕竟平均又不能代表我。这时你可以看中位数,或者众数,来衡量一个平均的水平。记得之前看过一篇文章写得是美国软件从业人员的工资,当然这里具体数据不可考证了,他们年薪据平均是200W美元(绉一个),那很多人的工资是不是离这个数很近吗,不一定。据说站在顶端的认识年薪是接近几千万美元,那人数最多的人工资是多少那,这个可以用众数来标示。同时如果按照工资从低到高排个序那,站在中间的那个人工资又是多少那,再者工资排名后在中间的这部分人又是个什么范围,这时我们可以用1/4 ,3/4位置的工资来衡量。其实在平均面前,就是类似箱型这样中位数、1/4,3/4位数的值或者这两个值之间的数值其实更有代表性。因此不要被“平均”所诱惑。

数据预处理

数据质量分析后便是数据的预处理。数据的预处理,是数据分析的前站,解决了分析的前站最后一公里问题,我们才能获得有效的分析结果。一般数据预处理包含对数据的去伪存真,筛选、排序、去重、去异常等等。 针对不同数据采取审视的角度不同,如调查获取的数据,应主要从完整性和准确性考虑;从其他渠道获取的二手数据,可能需要我们审视数据的适用性和实效性(统计学摘抄)。 在获取数据后,我们要能够发现错误并予以纠正,无法纠正的可能就需要筛选掉。筛选包含异常数据的丢弃,也包含发现有价值数据的选择。 有时我们需要对数据按照几个维度进行排序,以发现有用的价值数据,为数据检查纠错等提供方便。(统计学)找到最大和最小值后,我们可以获得极差,也就是最大值减去最小值。 在数据经过预处理后,可以进一步进行分类或者分组。分类,可以接着用频数、频率等,或者用条形图等展示。同时针对顺序数据,还可以使用累计频数、累计频率进行描述,可视化手段可以用累计频数分布图、环形图等展示。 同时针对数值型数据的分组,又可以分为单变量分组和组据分组,像1-12月的数据展示,或者说1-100分,每10分分为一档,组的宽度就是10.这里数值型数据可以用直方图、折线图、曲线图。针对未分组的数据,可以用茎叶图、箱线图表示。茎叶图可以用篮球队员得分例子作为样例学习,茎和叶都表示数值,常可以看出分布是否对称,数据是否集中,是否有离群点。一般高位数做茎,树叶只保留该数值的最后一个数字。 针对时间序列数据,可以绘制线图,主要表示发展变化的规律和趋势。 当多变量数据表示可以用雷达图radar chart.其实用来展示数据变化或者规律的图形有很多种,大家可以参考echarts,其上面绘制了丰富的图标,可供参考。其实相比较图标来讲,更重要的是展示出数据的价值。

统计分析衡量指标

方差: 各个数据与平均数之差的平方的平均数,variance,衡量随机变量和其数学期望之间的偏离程度 标准差: 方差的开根号 协方差: 在概率论和统计学中,协方差用于衡量两个变量的总体误差,而方差是协方差的一种特殊情况。两个变量在变化过程中是否同向变化,还是反向变化,程度如何,可以用协方差来表示

欧几里得距离: 相同单位指标的各维度特定距离计算,但在一些受主观影响很大的评分数据时,效果不太明显 皮尔逊相关系数: 用协方差除以两个变量的标准差得到。协方差反应两个随机变量的相关程度,大于0正相关,小于0负相关,但数值上受到量纲的影响,因此不能简单从协方差的数值大小给出变量相关程度的判断 余弦相似度-余弦距离: 用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量

分布分析

1.定量数据的分布分析,求极差、组距、组数、分点、列出频率分布表、绘制频率分布直方图。 2.定性数据的分布分析,定性的数据常常使用变量来分组,然后使用饼图、柱状图等来展示。 3.对比分析 两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢等,可用 (1)绝对数比较 (2)相对数比较 4.统计量分析: 集中趋势:均值、中位数、众数 离中趋势度量:极差、标准差、变异系数、四分位数间距 5.周期性分析 6.贡献度分析 (类似帕累托分析 20/80法则) 7.相关性分析 散点图(两个变量是否具有线性相关关系)、散点图矩阵(多个相关关系间多个显示,在多元线性回归时很重要) 相关系数(二元变量的相关分析过程Pearson相关系数、Spearman秩相关系数和判定系数)

分析之箱型图

箱型图 真实展示数据分析本来面貌,在识别异常值有奇效。

下界 下四分位-中位数 上四分位_上界

上图中均值为为16.08,标准差为30.74,最小值为1, 25%处为1.8, 50%处为4.175, 75%处为18.55,max值为196.79,要是这个数值为年薪的话,我们能够看到均值与中位数或者最大值有不小的差距,其实实际可能差距更大。因此我们要懂点分析的知识。 上图为一小区开盘某一栋楼的房价走向,横轴代表楼层,纵坐标轴代表每平米单价,可以看出其性价比较高的楼层的位置。

上图,词云,可以分析文中出现比较重要的关键词,并按照词频及重要性,将词按照大小进行区别显示。 在可视化展示中,能够清晰展示,让人一目了然我们的数据表达。

最新回复(0)