text分类的那里,生成词表时是不是去除一下停用词会好一点?
来源:7-7 数据预处理之分词
慕数据1235810
2018-11-09
写回答
1回答
-
是的,去除停用词会带来效果的提升,不过提升应该不大,一般模型算法去除听用词后提升1%已经算不错的了。
不过去除停用词有另一个好处,那就是节省计算时间。
对于文本分类问题,除了去除停用词外,还有很多种筛选特征的方法,比如信息增益,交叉熵,卡方分布等等。最简单的就是根据词频删除,比如把只出现过一次的词语删掉。这些都会带来提升的。
022019-01-07
相似问题