老师 文本特征 除了可以用向量表示 是不是还可以用别的方式来表示?
来源:4-7 Spark基于TF-IDF+SVM实现电商商品评论情感提取(下)

慕函数0552834
2021-10-09
老师 文本特征 除了可以用向量表示 是不是还可以用别的方式来表示?
写回答
1回答
-
小简同学
2021-10-10
同学你好,计算机是不认识我们的文本,需要将文本转换为数字和向量,才能进入下一步的模型训练。通常我们是将文本转换为文本向量,这个向量是由词项组成,例如[我,你,和],然后再建立字典,即(索引,词项)这么一种形式的字典,例如(3,我),(5,你),(2,和),这样,我们就可以用索引来表示词项,那么,文本向量就可以这样表示,[3,5,2]。然后就可以对每个文档里每个词项出现的次数进行计算。如何计算?构建一个n*m的矩阵,n是文档数量,即矩阵的每一行是一个文档,m是所有文档的所有词项。那么这个矩阵的每一个值就是这个词项在这个文档出现的次数。
00
相似问题