原始数据的收集问题
来源:9-4 实现逻辑回归算法
NTeam6
2020-05-26
请问一下如果我不使用sklearn提供的数据集,我想使用自己收集的数据来进行模型的训练,需要对数据进行什么特殊处理吗?
例如在冲压件的制造中,我以零件圆角和竖边高度作为样本特征,以零件是否开裂作为标签,利用KNN算法训练模型,最后来一个新的零件只要输入圆角和竖边高度就能判断零件是否开裂。
假设我收集100组零件的圆角和竖边高度以及相应标签(是否开裂),对这100组数据我需要进行什么特殊处理吗?还是只要收集的过程较为严谨这100组数据就可以直接使用?如果需要处理数据应该去了解哪本书或者哪个学科的哪门课程?
写回答
1回答
-
可以需要对数据处理的地方有很多。这个课程中所介绍的多项式回归中加入多项式项,或者 PCA,本质都是对数据的预处理。除此之外,不同的领域,可能有各自不同的对数据预处理的方式,比如各种图像学的方法,各种自然语言处理的方法,各种医学数据的处理方式,金融数据的时序数据处理,等等等等。
对于你给出的例子,这 100 组数据就可以直接用。但是,是不是做一些处理可能更好,或者选择更多的特征能得到更好的结果,这就是领域知识的问题了。
通常,这部分内容也被称为特征工程。关于特征工程的更多讨论,可以参考这里:http://coding.imooc.com/learn/questiondetail/40722.html
继续加油!:)
032020-05-26
相似问题