多元线性回归 – 使用散点图探索

通过上一部分简单线性回归了解了橙现智能的基本使用方法后, 我们开始一个复杂一些的任务, 多元线性回归.

介绍

此任务中我们使用 kaggle 房价预测的例子以及其数据来进行多元线性回归实战。这里给出了 19 个房屋特征,附加一个 id 列,目的是预测有了新房的话,根据房屋特征判断房价(price)是多少。比赛总共提供了 21613 个样本。数据及其说明都在比赛网站可见, 也可以直接下载此数据。此任务我们使用“橙现智能”实现。

视频教程

基准工作流

简单线性回归一样, 搭建如下工作流, 并可以在测试与评分中查看结果. 此部分不再详述.

此处唯一注意的就是要使用 kc_house_data.csv 这个数据, 并且设置 price目标

此时的R2大概是 0.7 左右. 下一步我们尝试将此数值提高.

探索性数据分析

卧室

可以使用数据表查看, 很难看出什么. 接着继续使用散点图进一步分析.

此散点图结果显示的是 pricebedrooms (价格与卧室数量)的关系. 我们可以发现卧室数量在 6 附近的时候房价最高, 随后会有下降. 这就是一个比较奇怪的现象了, 为什么会这样呢? 通过猜测, 我们假设卧室数量过多的话, 可能就是宿舍一类的房子了, 价格应该不高. 这样的话, 这类房子的大小应该也不大, 我们可以通过观察 sqft_livingbedrooms 关系来看, 卧室数量过多的房屋的确可能是宿舍.

我们可以在散点图看到 pricesqft_living 有很好的线性关系, 可以感觉到, 散点图查看数据很不错.

经纬度

有了这个猜想后, 我们再看看其他特征, 比如经纬度.

这里我们将 x 和 y 轴更改为了 latlong, 为了查看方便, 反选了 显示图例(因为我已经知道黄色的价格高). 这样, 我们发现, 在图中间隐约有一个豪宅区.

其他探索

这里就不再探寻其他特征了, 有兴趣请自己试试探索.

小结

本部分实现了多元线性回归的基准工作流, 并且使用散点图探索了各个特征, 下一步就要在此基础上进行特征工程

资源下载

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里