原始数据的收集问题

来源:9-4 实现逻辑回归算法

NTeam6

2020-05-26

请问一下如果我不使用sklearn提供的数据集,我想使用自己收集的数据来进行模型的训练,需要对数据进行什么特殊处理吗?
例如在冲压件的制造中,我以零件圆角和竖边高度作为样本特征,以零件是否开裂作为标签,利用KNN算法训练模型,最后来一个新的零件只要输入圆角和竖边高度就能判断零件是否开裂。
假设我收集100组零件的圆角和竖边高度以及相应标签(是否开裂),对这100组数据我需要进行什么特殊处理吗?还是只要收集的过程较为严谨这100组数据就可以直接使用?如果需要处理数据应该去了解哪本书或者哪个学科的哪门课程?

写回答

1回答

liuyubobobo

2020-05-26

可以需要对数据处理的地方有很多。这个课程中所介绍的多项式回归中加入多项式项,或者 PCA,本质都是对数据的预处理。除此之外,不同的领域,可能有各自不同的对数据预处理的方式,比如各种图像学的方法,各种自然语言处理的方法,各种医学数据的处理方式,金融数据的时序数据处理,等等等等。


对于你给出的例子,这 100 组数据就可以直接用。但是,是不是做一些处理可能更好,或者选择更多的特征能得到更好的结果,这就是领域知识的问题了。


通常,这部分内容也被称为特征工程。关于特征工程的更多讨论,可以参考这里:http://coding.imooc.com/learn/questiondetail/40722.html


继续加油!:)

0
3
liuyubobobo
回复
NTeam6
你需要使用相应的 api,从 Excel 文件中读取数据,然后将读取的数据整理成数组的形式。因为 excel 是商业软件,所以可能这样做并不方便。使用 csv 格式更方便。python 内置就有处理 csv 文件的 api,可以参考:https://docs.python.org/3/library/csv.html
2020-05-26
共3条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程