老师,国家分类可以用0,1,2,3...这样的数字表示吗?

来源:14-1 学习scikit-learn文档, 大家加油!

ZzzZHH

2019-08-27

老师您好,我是一名爬虫工程师,想分析一下我采集下来的网红数据,可是国家这样的无序分类变量不知道怎样提取特征,可以将美国直接写成0,英国写成1,加拿大写成2这样带入机器学习算法中吗?

写回答

1回答

liuyubobobo

2019-08-27

可以。但是不够好。


因为使用0,1,2 ... 这样的数据,默认了一种“序”的关系。更适合于比如:

危险等级,信用等级:低,中,高;

距离地铁的距离:步行可达;自行车可达;需要使用其他交通工具可达;

等等这样的分类变量。


但是,国家这样的的属性,是没有这样的“序”的,所以更好的方式是使用 one-hot 编码。在网上搜索一下 one-hot 编码自学一下,很简单的。


可以参考这个问答:http://coding.imooc.com/learn/questiondetail/134266.html


继续加油!:)

0
4
ZzzZHH
回复
liuyubobobo
谢谢老师,已经会使用了
2019-08-27
共4条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5981 学习 · 2456 问题

查看课程