老师 文本特征 除了可以用向量表示 是不是还可以用别的方式来表示?

来源:4-7 Spark基于TF-IDF+SVM实现电商商品评论情感提取(下)

慕函数0552834

2021-10-09

http://img.mukewang.com/szimg/6161973c0986734409910089.jpg

老师 文本特征 除了可以用向量表示 是不是还可以用别的方式来表示?

写回答

1回答

小简同学

2021-10-10

同学你好,计算机是不认识我们的文本,需要将文本转换为数字和向量,才能进入下一步的模型训练。通常我们是将文本转换为文本向量,这个向量是由词项组成,例如[我,你,和],然后再建立字典,即(索引,词项)这么一种形式的字典,例如(3,我),(5,你),(2,和),这样,我们就可以用索引来表示词项,那么,文本向量就可以这样表示,[3,5,2]。然后就可以对每个文档里每个词项出现的次数进行计算。如何计算?构建一个n*m的矩阵,n是文档数量,即矩阵的每一行是一个文档,m是所有文档的所有词项。那么这个矩阵的每一个值就是这个词项在这个文档出现的次数。

0
0

Spark+ES+ClickHouse 构建DMP用户画像

大数据主流技术,数据挖掘核心算法,用户画像完整知识轻松掌握

306 学习 · 219 问题

查看课程