text数据如何处理
来源:14-1 学习scikit-learn文档, 大家加油!
小红果的爸爸
2019-07-30
bobo老师,请问如果我的数据集中的某些字段包含text的数据,我应该怎么去对这种数据做处理呢?比如我有一列是手机的型号,这些众多的手机型号我应该怎么处理?
写回答
2回答
-
是什么 text 数据?
如果是类别数据,比如男女,这样的数据,直接转成数字;
更复杂的类别数据,比如城市,可以使用one-hot编码,可以在网上搜索一下one-hot编码,自学一下,非常简单;
如果是真正的文本,比如用户留言数据,就必须使用自然语言处理中的方法了。这已经不是这个课程的内容了,可以找一下自然语言处理相关的材料学习一下。不过整体上,自然语言处理,依然水把文字信息,通过各种算法进行数值化,然后喂给机器学习算法。从机器学习算法的角度,它只能感知到数值信息。所以,这本质是做特征工程。
关于特征工程更多的讨论,可以参考这里:http://coding.imooc.com/learn/questiondetail/40722.html
其中,自然语言处理(即 NLP),已经是一个很专门的领域了:)
继续加油!:)
112019-08-01 -
liuyubobobo
2019-07-30
看到你补充是手机型号,可以使用 one-hot 编码,在网上搜索自学一下看?非常简单的:)
继续加油!:)
00
相似问题