1 环境
R 3.0以上版本
安装机器学习软件包:
说明:此两个包是R机器学习包。RTextTools包含文本处理,e1071包含分类器。
> install.packages("RTextTools")
> install.packages("e1071")
研究对象:http://www.xueqing.tv/cms/article/107#rd?sukey=3903d1d3b699c20870d8c0b36a06c8665d146b24b47f8953d7202230c1ad9c9dd368d27959ec776c4cd0e2c94248f632
此篇博文(最上面图是word2vec的图,与本篇博文无关)使用R语言,对文本进行分类,并且使用多种分类器。
其包含两部分,都是对句子进行情感分类。一部分使用手工添加的少量数据进行。
另一部分使用80条happy数据,80条sad数据,10条happy测试数据,10条sad测试数据(代码路径:sentiment_analyse.R)。
实验一:对各个分类器初步比较,作者手工添加数据,进行预测(代码文件:sentiment_compare.R):
预测准确率:
分类器
准确率
随机森林
60%
最大熵
60%
决策树
60%
BAGGING
60%
SVM
20%
实验二(代码文件sentiment_analyse.R):
数据文件:http:///sentiment/data/
采用bayes, MAXENT, SVM, SLDA, BAGGING, RF, TREE分类器,进行分类
结果如下:
分类器名称
准确率(R)
准确率(spark)
贝叶斯
65%
95%
随机森林
95%
90%
SVM
95%
SLDA
75%
BAGGING
95%
决策树
100%
85%
MAXENTROPY
95%
GBT
90%
Vord2vec
70%
转载于:https://www.cnblogs.com/DRUNK2013/p/5541931.html
相关资源:JAVA上百实例源码以及开源项目