问下您这个boosting的网格搜索怎么出错了,是哪里写的不对呢

来源:1-1 什么是机器学习

weixin_慕少409219

2021-12-17

param_grid = [{‘base_estimator_alpha’:[0.01,0.1,1,10,100],‘n_estimators’:[200,300,500]}]
from sklearn.linear_model import Ridge
ada_reg = AdaBoostRegression()

grid_search = GridSearchCV(AdaBoostRegression(Ridge(alpha=100),n_estimators=100),param_grid)

grid_search.fit(x_poly,y)
print(grid_search.best_params_)
print(‘grid_search.best_score_:%4f’%grid_search.best_score_)
网格搜索问题

写回答

1回答

weixin_慕少409219

提问者

2021-12-17

知道了 已经调好了 打扰了 学了这个课慢慢练习 已经从初级变为中级数据分析师了,感谢老师;目前我遇到一个问题,做银行的数据分析,样本量很大1000W+个样本量,适合做回归、分类吗,我取多少样本量做训练、建模合适呢,老师有什么意见?

0
1
liuyubobobo
是适合做分类还是回归,和你的任务有关。你的任务是分类问题或者回归问题,就适合。 取多少样本量做训练,也和你的具体数据和使用的方法有关: 首先,对于大多数数据来说,基本的底线是:数据量要大于特征值。通常至少是特征值的 x 倍,比如 5-10 倍; 其次,看你的算法,算力,和可以忍受的计算时间。算法的复杂度高越高,算力越小,可以忍受的时间越短,你能取的数据量就越少。 最后,看取数据量得到的效果,整体肯定是越大的数据量计算出的结果越可靠。所以者之间是一个取舍。 一个简单的方式(和调参类似),就是从小数据量取起,比如 从 1000 个数据开始,逐步增加数据量,看不同数据量的计算时间和结果是否在可接受范围。 继续加油!:)
2021-12-18
共1条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程