TF-IDF算法

mac2024-08-06  65

TF-IDF算法,全程为term frequency-inverse document frequency, 词频-逆文档频率,是一种常用的文本加权技术,常用语信息检索和数据挖掘领域。

TF,词频,也就是在一个文档中,某个词语的出现次数。为了便于统一化,经常对出现次数进行归一化处理,计算其出现频率,也就是,某个词语的出现次数,除以文档中的词语总数。

与词频有关的一个概念是停用词,停用词是指那些在文档中出现频率极高,但没有什么实际意义的词语,例如“的”“了”“在”“是”等,在实际处理中,经常会将停用词先剔除掉。

IDF,逆文档频率,主要用来调整词语的权重。如果一个词语在所有文档中出现频率都很高,那恰恰说明这个词语的区分度很低。一个词语的逆文档频率,与它的出现频率成反比,这也是“逆”字的含义。计算IDF时需要一个很大的文档集合,一般称为语料库。

IDF的计算方法为log(语料库中的文档总数 / (包含该词语的文档数量 + 1)) 。

有了TF和IDF之后,两者相乘,即可计算文档中某个词语的TF-IDF值。文档中所有词语的TF-IDF值排序后,值最大的词语即为该文档的关键字。

最新回复(0)