老师您好,请问下这里的文本特征索引是什么含义呢?做品类id的文本特征索引提取有什么用呢

来源:6-4 使用Spark-ml实现基于朴素贝叶斯预测性别(中)

慕后端8225145

2023-09-04

图片描述

写回答

1回答

小简同学

2023-09-05

同学你好,StringIndexer 是转换器,是将字符串特征列,这里是品类 id ,进行编码,也就是数值化,为什么要数值化,因为有些算法需要的参数是要 Int 型的,这里的品类 id 是字符串型,所以要通过转换器转换为 Int 型。转换的依据是什么,是根据品类 id 出现的频率,进行排序,例如某个品类 id 出现的次数是最多的,那么这个品类 id 的数值是 0.0, 第 2 个出现次数多的品类 id 的数值就是 1.0,以此类推。这就是文本特征索引
0
0

Spark+ES+ClickHouse 构建DMP用户画像

大数据主流技术,数据挖掘核心算法,用户画像完整知识轻松掌握

306 学习 · 219 问题

查看课程