请问等分箱后,每个箱子里面的数值是不一样的吗

来源:5-7 特征变换-离散化

慕运维7479159

2018-03-09

请问等分箱后,每个箱子里面的数值是不一样的吗,

取边界值是否会导致同一个箱子内,有两个数值,

用平均值就不存在这个问题,15,15,24 好像没有离散化吧,请问老师怎么理解这个问题

写回答

1回答

途索

2018-03-09

同学你好,分箱使用的一个重要场景,就是离散化。离散化的目的,是让数字出现的“种类”减少(比如1,2,3,4,4共有五个数,四个“种类”数)。每个数字在离散化时都会被转化成另一个数字,分箱是一种具体手段,分箱并不要求转化过程后的箱子里的数一致。典型的,如果箱子里的数的跨服太大,比如,1,2,3,4,100,101,等深分两个箱,第二个箱为4,100,101,如果取平均数,把这三个数都转成他们的平均数,对这三个数来说,会失掉许多原始信息。这种情况下,边界值指代,就更合适,保留信息,同时平滑数据。

0
4
途索
回复
慕运维7479159
客气啦
2018-03-10
共4条回复

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程