text数据如何处理

来源:14-1 学习scikit-learn文档, 大家加油!

小红果的爸爸

2019-07-30

bobo老师,请问如果我的数据集中的某些字段包含text的数据,我应该怎么去对这种数据做处理呢?比如我有一列是手机的型号,这些众多的手机型号我应该怎么处理?

写回答

2回答

liuyubobobo

2019-07-30

是什么 text 数据?


如果是类别数据,比如男女,这样的数据,直接转成数字;

更复杂的类别数据,比如城市,可以使用one-hot编码,可以在网上搜索一下one-hot编码,自学一下,非常简单;

如果是真正的文本,比如用户留言数据,就必须使用自然语言处理中的方法了。这已经不是这个课程的内容了,可以找一下自然语言处理相关的材料学习一下。不过整体上,自然语言处理,依然水把文字信息,通过各种算法进行数值化,然后喂给机器学习算法。从机器学习算法的角度,它只能感知到数值信息。所以,这本质是做特征工程。


关于特征工程更多的讨论,可以参考这里:http://coding.imooc.com/learn/questiondetail/40722.html


其中,自然语言处理(即 NLP),已经是一个很专门的领域了:)


继续加油!:)

1
1
小红果的爸爸
谢谢bobo老师
2019-08-01
共1条回复

liuyubobobo

2019-07-30

看到你补充是手机型号,可以使用 one-hot 编码,在网上搜索自学一下看?非常简单的:)


继续加油!:)

0
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程