老师 spark 可以训练出url检测模型吗?大概什么思路呢?

来源:4-7 Spark基于TF-IDF+SVM实现电商商品评论情感提取(下)

慕函数0552834

2022-04-03

老师 spark 可以训练出url检测模型吗?大概什么思路呢?

写回答

1回答

小简同学

2022-04-04

同学你好,可以的,url检测可以看作是一个分类问题,拿就可以用分类算法,最常用的就是逻辑回归,也就是有监督的训练,也就是要准备正反两份训练数据,但url是文字类型的,需要提取url的数字特征进行训练,所以很自然的会想到使用TFIDF,以上就是大概的思路,祝学习愉快!

0
4
小简同学
回复
慕函数0552834
url是字符串,需要转换为数字特征,这个是需要tf-idf,是提交给分类算法训练的前提,你可以参考 imocc-dmp-spark\src\main\scala\ml\TFIDFModel.scala,这里是手写了tf-idf算法,你可以参考一下。
2022-04-07
共4条回复

Spark+ES+ClickHouse 构建DMP用户画像

大数据主流技术,数据挖掘核心算法,用户画像完整知识轻松掌握

306 学习 · 219 问题

查看课程