2.R语言入门运行样例

mac2024-04-01  31

介绍与入门

2.8 汇总统计示例2.8.1 读入表格数据2.8.2 更改默认位置2.8.3 分类变量频数统计2.8.4 数值型变量的统计 (学习资料参考北京大学李东风老师《R语言教程》)

2.8 汇总统计示例

2.8.1 读入表格数据

打开一个csv文件

tax.tab <- read.csv("taxsamp.csv", header=TRUE, as.is=TRUE)

出现报错: 这是因为文件路径没有设置对,R找不到csv文件。首先查看默认路径:

getwd()

找到默认路径后,将csv文档放在默认路径下,再试一次: 不再报错,且在右侧data下出现如下:

2.8.2 更改默认位置

创建新路径 dir.create()

括号中输入一个新建的文件夹,注意一定是还没有的文件夹。第一次试的时候建好了文件夹,系统会提示文件夹已经存在,如下:

设置新路径 setwd()

同样括号中输入上面新建的路径

确定新路径设置是否成功 getwd()

出现的路径是你刚设置过的,说明路径设置成功

看一下整体的效果,3步即可,把默认路径修改了一下。

2.8.3 分类变量频数统计

下面针对上面读取的表格,练习频数统计。

统计征收方式的频数 在tax.tab中, “征收方式”是一个分类变量。 用table()函数计算每个不同值的个数,称为频数(frequency): table(tax.tab[["征收方式"]])

结果如下:

类似地可以统计 “申报渠道”的取值频数 table(tax.tab[["申报渠道"]])

结果如下:

也可以用table()函数统计“征收方式”和“申报渠道”交叉分类频数 table(tax.tab[["征收方式"]], tax.tab[["申报渠道"]])

结果略。

对以上得到的内容制表 knitr::kable(table(tax.tab[["征收方式"]], tax.tab[["申报渠道"]]) )

如何让表格更好看?!

2.8.4 数值型变量的统计

数值型变量可以计算各种不同的统计量, 如平均值、标准差和各个分位数。 summary()可以给出最小值、最大值、中位数、四分之一分位数、四分之三分位数和平均值。 以营业额为例: summary(tax.tab[["营业额"]])

得到结果如下: 依次给出了最小值,四分之一分位数,中位数,均值,四分之三分位数,最大值。

统计函数以一个数值型向量为自变量, 包括sum(求和), mean(平均值), var(样本方差), sd(样本标准差), min(最小值), max(最大值), range(最小值和最大值)等。 举例如下,求营业额的均值(其他同): mean(tax.tab[["营业额"]])

最新回复(0)