pyspark、sparkML在作用上的区别

来源:2-6 -Python3环境部署

qq___107

2020-01-29

老师你好!
我看了一段时间的课程,产生了一个疑惑,希望能帮忙解答一下。

pyspark可以让程序员用python调用spark的接口对海量数据进行处理,提取出某些特征,然后用sklearn训练模型;sparkML也可以让程序员用python处理数据然后做模型训练。那这两个工具的作用是不是有点重叠了?然后在公司里,算法工程师和大数据开发工程师是如何协同工作训练出一个业务的机器学习模型的?

写回答

1回答

Michael_PK

2020-01-30

pyspark很多功能还是有限的。如果使用sparkmllib的话,直接调用已有的api就行。Python机器学习很多是单机的,并不一定都是分布式的

0
2
Michael_PK
回复
qq___107
算法是思想,靠语言落地,但是使用什么语言是不确定的,得看公司的选型
2020-01-30
共2条回复

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程