多元线性回归 – 特征工程
上一部分通过使用散点图探索, 我们对数据有了更深入的了解, 这一部分我们就在此基础上, 做一下特征工程.
介绍
我们这里尝试构造一个新的特征, 看看会不会对模型产生什么影响.
视频教程
构造宿舍特征
这里要使用特征构造器构造所需要的特征. 点击 变量定义 框中的 新建 下拉框, 选择 分类数据
然后对照下图, 输入新特征名称 apartment
, 取值有 1 和 0. 条件为 1 if bedrooms > 6 else 0
. 可选值为 1, 0
特征名称不会写的话,可以使用 选择特征 下拉菜单选择特征.
点击 发送 就可以输出添加了新特征的数据了. 保险起见, 我们可以在数据表中查看这个新特征. 确定新特征有正确的分类值.
新建分类属性的值可能和预期的不一样. 比如这里可能本来预计
bedrooms > 6
是 1, 其他的为 0, 但是数据表中却是相反的, 这个关系不大, 可以不管它.
新的数据集连接另一个测试与评分后, 可以发现模型没有太大变化.
构造豪宅特征
接下来我们根据经纬度构造豪宅特征. 如下图所示, 建立新的分类特征, 特征条件是 1 if 47.5<lat<47.65 and -122.4<long<-122.1 else 0
.
我们发现, 现在 R2 有了较大的提高, 说明这个特征不错.
其他处理
归一化
类似线性回归这样与几何特征有关的算法都应该进行归一化处理. 如下图连接一个[预处理器]和测试与评分. 使用 归一化特征, 可以发现测试与评分结果没有什么太大变化.
数值特征还是分类特征
此数据集有一个数据, 橙现智能默认为 数值数据, 但是这样好吗?
在文件小部件中, 设置如下特征为 分类特征
可以发现测试与评分结果有了较大提高.
小结
通过基于探索性数据分析的特征工程和其他流程化的特征工程技术, 我们将模型的性能提高了不少, 有兴趣的朋友请继续试试, 看看有没有更好的结果. 下一部分, 我们继续优化模型和模型解释
资源下载
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里