老师,国家分类可以用0,1,2,3...这样的数字表示吗?
来源:14-1 学习scikit-learn文档, 大家加油!
ZzzZHH
2019-08-27
老师您好,我是一名爬虫工程师,想分析一下我采集下来的网红数据,可是国家这样的无序分类变量不知道怎样提取特征,可以将美国直接写成0,英国写成1,加拿大写成2这样带入机器学习算法中吗?
写回答
1回答
-
可以。但是不够好。
因为使用0,1,2 ... 这样的数据,默认了一种“序”的关系。更适合于比如:
危险等级,信用等级:低,中,高;
距离地铁的距离:步行可达;自行车可达;需要使用其他交通工具可达;
等等这样的分类变量。
但是,国家这样的的属性,是没有这样的“序”的,所以更好的方式是使用 one-hot 编码。在网上搜索一下 one-hot 编码自学一下,很简单的。
可以参考这个问答:http://coding.imooc.com/learn/questiondetail/134266.html
继续加油!:)
042019-08-27
相似问题
关于多分类的scores
回答 1
特征随机采样问题
回答 1