多元线性回归 – 特征工程

上一部分通过使用散点图探索, 我们对数据有了更深入的了解, 这一部分我们就在此基础上, 做一下特征工程.

介绍

我们这里尝试构造一个新的特征, 看看会不会对模型产生什么影响.

视频教程

构造宿舍特征

这里要使用特征构造器构造所需要的特征. 点击 变量定义 框中的 新建 下拉框, 选择 分类数据

然后对照下图, 输入新特征名称 apartment, 取值有 1 和 0. 条件为 1 if bedrooms > 6 else 0. 可选值为 1, 0

特征名称不会写的话,可以使用 选择特征 下拉菜单选择特征.

点击 发送 就可以输出添加了新特征的数据了. 保险起见, 我们可以在数据表中查看这个新特征. 确定新特征有正确的分类值.

新建分类属性的值可能和预期的不一样. 比如这里可能本来预计 bedrooms > 6 是 1, 其他的为 0, 但是数据表中却是相反的, 这个关系不大, 可以不管它.

新的数据集连接另一个测试与评分后, 可以发现模型没有太大变化.

构造豪宅特征

接下来我们根据经纬度构造豪宅特征. 如下图所示, 建立新的分类特征, 特征条件是 1 if 47.5<lat<47.65 and -122.4<long<-122.1 else 0.

我们发现, 现在 R2 有了较大的提高, 说明这个特征不错.

其他处理

归一化

类似线性回归这样与几何特征有关的算法都应该进行归一化处理. 如下图连接一个[预处理器]和测试与评分. 使用 归一化特征, 可以发现测试与评分结果没有什么太大变化.

数值特征还是分类特征

此数据集有一个数据, 橙现智能默认为 数值数据, 但是这样好吗?

文件小部件中, 设置如下特征为 分类特征

可以发现测试与评分结果有了较大提高.

小结

通过基于探索性数据分析的特征工程和其他流程化的特征工程技术, 我们将模型的性能提高了不少, 有兴趣的朋友请继续试试, 看看有没有更好的结果. 下一部分, 我们继续优化模型和模型解释

资源下载

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里