CountVectorizer和TfidfTransformer的问题

来源:4-10 朴素贝叶斯例子(2)

丨越丨

2018-08-16

老师,您的步骤是:

  1. 读取文件,分词,整合成数据集

  2. 转化向量

  3. 特征工程

  4. 训练

其中第2步到第3步我没看明白,转化成词向量可以理解,为什么之后还要提取特征,才能训练呢?

count_vector.fit_transform(train_data)

TfidfTransformer(use_idf=False).fit_transform(vector_matrix)

这两步内部分别作了哪些事情?


写回答

1回答

Mr_Ricky

2018-08-16

第二步到第三步实际上在转换为词向量之后我们是读取了训练数据的tfidf的值,然后再利用这个值进行训练。下面这两句实际上也就是在做这件事。并不是说提取特征,可能我用提取特征这几个字表达的稍微有点会误导,实际上只是提取其tfidf的值。

0
2
Mr_Ricky
回复
丨越丨
是的,这个参数其实你可以去网上找一下sklearn的这个tfidf的用法和说明,比较详细
2018-08-16
共2条回复

NLP实践TensorFlow打造聊天机器人

解析自然语言处理( NLP )常用技术,从0搭建聊天机器人应用并部署上线,可用于毕设。

673 学习 · 281 问题

查看课程