关于线性回归boston数据集
来源:5-10 线性回归的可解释性和更多思考

要努力的Jony
2023-05-08
bobo老师,我在查看这个sklearn的api文档,好像这个boston数据集已经没有了
写回答
1回答
-
我看了一下,确实如此,从 sklearn 1.2 开始,波士顿房价数据因为“政治正确”的原因被移除了。
sklearn 的源码对这一数据的移除有说明,同时给出了从数据源获得这一数据的方式。可以参考这里
如果还想获得这个波士顿房价数据集,摘抄 sklearn 官方给出的获取数据的方式:
import pandas as pd import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="\\s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target = raw_df.values[1::2, 2]
另外,取这一数据的接口被移除了,但是这个数据本身似乎还在 sklearn 的包中,以 csv 的形式存储。所以也可以直接读取这个 csv 文件:https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/datasets/data/boston_house_prices.csv
============
另外,对于回归问题的实验,sklearn 在新版本添加了一个加州的房价数据集,感兴趣也可以使用,相关 API 参考这个文档(注意,数据的维度和波士顿房价数据级不同):https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html#sklearn.datasets.fetch_california_housing
继续加油!:)
012023-05-10
相似问题