关于线性回归boston数据集

来源:5-10 线性回归的可解释性和更多思考

要努力的Jony

2023-05-08

bobo老师,我在查看这个sklearn的api文档,好像这个boston数据集已经没有了图片描述

写回答

1回答

liuyubobobo

2023-05-09

我看了一下,确实如此,从 sklearn 1.2 开始,波士顿房价数据因为“政治正确”的原因被移除了。


sklearn 的源码对这一数据的移除有说明,同时给出了从数据源获得这一数据的方式。可以参考这里

(108 行开始):https://github.com/scikit-learn/scikit-learn/blob/2cce02414d4a7161f0d105450c196d94b1182220/sklearn/datasets/__init__.py 

如果还想获得这个波士顿房价数据集,摘抄 sklearn 官方给出的获取数据的方式:

import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]


另外,取这一数据的接口被移除了,但是这个数据本身似乎还在 sklearn 的包中,以 csv 的形式存储。所以也可以直接读取这个 csv 文件:https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/datasets/data/boston_house_prices.csv


============


另外,对于回归问题的实验,sklearn 在新版本添加了一个加州的房价数据集,感兴趣也可以使用,相关 API 参考这个文档(注意,数据的维度和波士顿房价数据级不同):https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html#sklearn.datasets.fetch_california_housing


继续加油!:)

0
1
要努力的Jony
谢谢bobo老师
2023-05-10
共1条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5940 学习 · 2455 问题

查看课程