2.R语言入门运行样例

mac2024-04-01 43

2.8 汇总统计示例2.8.1 读入表格数据2.8.2 更改默认位置2.8.3 分类变量频数统计2.8.4 数值型变量的统计（学习资料参考北京大学李东风老师《R语言教程》）

2.8 汇总统计示例

打开一个csv文件

tax.tab <- read.csv("taxsamp.csv", header=TRUE, as.is=TRUE)

出现报错：这是因为文件路径没有设置对，R找不到csv文件。首先查看默认路径：

getwd()

找到默认路径后，将csv文档放在默认路径下，再试一次：不再报错，且在右侧data下出现如下：

创建新路径 dir.create()

括号中输入一个新建的文件夹，注意一定是还没有的文件夹。第一次试的时候建好了文件夹，系统会提示文件夹已经存在，如下：

设置新路径 setwd()

同样括号中输入上面新建的路径

确定新路径设置是否成功 getwd()

出现的路径是你刚设置过的，说明路径设置成功

看一下整体的效果，3步即可，把默认路径修改了一下。

下面针对上面读取的表格，练习频数统计。

统计征收方式的频数在tax.tab中， “征收方式”是一个分类变量。用table()函数计算每个不同值的个数，称为频数(frequency): table(tax.tab[["征收方式"]])

结果如下：

类似地可以统计 “申报渠道”的取值频数 table(tax.tab[["申报渠道"]])

结果如下：

也可以用table()函数统计“征收方式”和“申报渠道”交叉分类频数 table(tax.tab[["征收方式"]], tax.tab[["申报渠道"]])

结果略。

对以上得到的内容制表 knitr::kable(table(tax.tab[["征收方式"]], tax.tab[["申报渠道"]]) )

如何让表格更好看？！

数值型变量可以计算各种不同的统计量, 如平均值、标准差和各个分位数。 summary()可以给出最小值、最大值、中位数、四分之一分位数、四分之三分位数和平均值。以营业额为例： summary(tax.tab[["营业额"]])

得到结果如下：依次给出了最小值，四分之一分位数，中位数，均值，四分之三分位数，最大值。

统计函数以一个数值型向量为自变量，包括sum(求和), mean(平均值), var(样本方差), sd(样本标准差), min(最小值), max(最大值), range(最小值和最大值)等。举例如下，求营业额的均值（其他同）： mean(tax.tab[["营业额"]])

最新回复(0)