老师您好,请问下这里的文本特征索引是什么含义呢?做品类id的文本特征索引提取有什么用呢
来源:6-4 使用Spark-ml实现基于朴素贝叶斯预测性别(中)

慕后端8225145
2023-09-04
写回答
1回答
-
小简同学
2023-09-05
同学你好,StringIndexer 是转换器,是将字符串特征列,这里是品类 id ,进行编码,也就是数值化,为什么要数值化,因为有些算法需要的参数是要 Int 型的,这里的品类 id 是字符串型,所以要通过转换器转换为 Int 型。转换的依据是什么,是根据品类 id 出现的频率,进行排序,例如某个品类 id 出现的次数是最多的,那么这个品类 id 的数值是 0.0, 第 2 个出现次数多的品类 id 的数值就是 1.0,以此类推。这就是文本特征索引00
相似问题