啥都没有了
哎呀, 你的页面没找到.
A list of all the posts and pages found on the site. For you robots out there is an XML version available for digesting as well.
哎呀, 你的页面没找到.
橙现智能 – 让智能快速呈现 免费开源人工智能工具 可视化,无编程工作流,无门槛上手
橙现智能 – 让智能快速呈现 免费开源人工智能工具 可视化,无编程工作流,无门槛上手
分类树很棒,但是当它们长太大甚至超过27’屏幕时又如何呢? 我们可以使树看起来更紧凑,仍然讲述同样的故事吗? 是的,我们可以。
轮廓系数 (使用[轮廓图]) 显示簇内样本与最近簇内样本之间的平均距离。
探索性数据挖掘的关键技术之一是聚类-基于某种相似性度量将点分为不同的组。
分类是做出预测并从我们的数据中获取重要信息的关键方法之一。例如,我们可以基于某些症状预测哪些患者可能患有疾病。
我们将通过[层次聚类]进行聚类分析。我们使用了众所周知的鸢尾花 (iris) 数据集,其中包含 150 个鸢尾花,每个花都属于三种物种(setosa,versicolor 和 virginica)之一。
[绘制数据]小部件可能看起来仅仅是一个玩具,但与其他小部件结合使用后,它可以直观地演示诸多机器学习概念(例如k均值,分层聚, SVM,逻辑回归,等等。)
人工智能是什么?它从哪里来,将要到那里去?它是一门计算机科学吗?它是《星际迷航》中的“Data”,还是人类的“终结者”或者“机械公敌”?或者是《人工智能》中的机器人大卫?呃,简单来说:是也不是。
机器学习是现代人工智能的核心,深度学习作为机器学习的一种方法,使得人工智能取得了突破性的进展。
机器学习涉及很多数据和统计学方面知识, 这里了解几个简单的术语
如何知道一个模型是否好呢? 我们可以使用损失函数
模型的训练和测试是任何机器学习模型都会涉及的问题, 同时也是初学者容易出错的地方
在模型的训练过程中,会涉及到大量的参数设置问题,如何更快更好地设置这些参数,直接关系到最终模型的好坏。理解梯度下降算法,可以帮助我们调试出更好的模型。
模型超参数(Hyperparameter)是什么? 和模型参数什么区别?
过拟合将会是机器学习的极大障碍,它是模型完美地或者很好地拟合了数据集的某一部分,但是此模型很可能并不能用来预测数据集的其他部分。
模型的复杂度上升会让模型能力更强,这是我们希望的。但是其副作用就是过拟合。如果为了防止过拟合就放弃复杂模型,其结果就像是倒掉洗澡水的时候把婴儿一起倒掉了。那怎么办呢?我们可以使用正则化技术在使用复杂模型的前提下防止过拟合。
介绍回归的基本概念,进而引出最小二乘法,最后看看如何判断拟合的好坏。
使用逻辑回归解决分类问题
熟悉了什么是分类问题,而且用逻辑回归实际进行了分类问题的练习后,下面看看另一个重要的分类算法 – 支持向量机。
决策树也称作分类树或回归树。叶子节点给出分类,内部节点代表某个特征,分支代表某个决策规则。构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。”最好” 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义”最好”。
找到将数据最好地分类的特征,使用这个特征为根,使用某个规则分类数据,被分类的数据重复这个过程构建子树,直到完成构建。这句话隐藏着两个关键的问题:
给定数据集和模板,转换数据集。
设置变量的色彩图例
连接来自多个数据源的数据。
将离散变量(属性)转换为数字(连续)变量。
计算所有属性两两相关性。
从字符串属性创类别属性
从样本数据集中交互创建实例。
从CSV格式的文件导入数据。
显示所选数据集的信息。
从输入数据集中选择数据实例的子集。
从在线存储库加载数据集。
在一张表格中显示属性值数据。
从输入数据集中离散化连续属性。
重命名特征及其值。
为数据集构造新特征
显示特征的基本统计数据
从输入文件读取属性值数据
替换数据中的未知值。
橙现智能拥有自己的数据格式,也可以处理Excel,逗号或制表符分隔的数据文件。
根据选定属性的值合并两个数据集。
根据参考计算数据中最近的邻居。
异常值检测小部件。
在2D平面上绘制数据。可以放置单个数据点或使用画笔绘制较大的数据集。
根据列值重塑数据表 WRONG
使用选定的方法预处理数据。
删除未使用的属性值和无用的属性,对剩余的值进行排序。
通过 Python 脚本来扩展功能。
将输入数据集的类别、属性和(或)元无序化
对分类或回归分析中的特征重要性进行排名。
保存数据到文件
通过数据子集中的索引匹配实例
手动选择数据属性并组成数据域。
根据选取条件选择数据实例。
从数据库读取数据
转置数据表
设置一个简单的卷积神经网络学习器
使用训练好的卷积神经网络预测
载入所需图片
使用基于腾讯 AI 开放平台的服务进行多标签识别 (腾讯此服务可能不稳定)
使用 TensorFlow Playground 学习深度学习
训练深度学习模型
使用百度自然语言处理平台实现天气播报
显示分类器的概率预测与实际分类概率之间的匹配。.
显示预测类和实际类之间的比例。
针对随机分类器衡量所选分类器的性能。
显示模型对数据的预测。
相对于测试的假阳性率绘制真实的阳性率。
测试数据的学习算法
一个集合了若干弱学习器并适应每个训练样本“难度”的集成元算法。
用概率校准和决策阈值优化来包装另一个学习者。
使用 CN2 算法从数据中归纳出规则。
从训练集中预测最频繁的类别或平均值。
在决策树上使用梯度提升进行预测。
根据最靠近的训练实例进行预测。
具有可选L1(LASSO),L2(岭)或L1L2(弹性网)正则化的线性回归算法。
从输入文件加载模型。
具有LASSO(L1)或脊(L2)正则化的逻辑回归分类算法。
基于贝叶斯定理的假设特征独立的快速简单概率分类器。
A multi-layer perceptron (MLP) algorithm with backpropagation.
使用一组决策树进行预测。
将经过训练的模型保存到输出文件。
堆叠多个模型。
使用梯度下降的随机逼近最小化目标函数。
支持向量机将输入映射到高维特征空间。
具有正向剪枝的树算法。
使用强化学习训练一个爬行者机器人
使用马尔科夫决策过程或者 q 学习方法计算最佳路径
Interactive exploration of LDA topics.
从输入的语料库中生成一个词袋。
显示该词的上下文。
加载文本文档的语料库,(可选)用类别标记,或更改语料库的数据输入信号。
Creates a network from given corpus. Network nodes can be either documents or words (ngrams).
显示语料库内容。
通过使用预先训练的fastText模型将文档嵌入向量空间,该模型在E. Grave等人(2018)中描述。
显示文本中提到的地理位置。
从语料库中检测和删除重复的内容。
从输入语料库中推断出特征词。
从文件夹中导入文本文档。
用选定的方法对语料进行预处理。
输入
Scores documents based on word appearance.
Displays corpus semantics.
计算文件的哈希值。
为文档创建新的统计变量。
使用 Latent Dirichlet Allocation、Latent Semantic Indexing或Hierarchical Dirichlet Process 进行主题建模。
从语料库生成词云。
对选定的文件进行词语丰富性分析。
分类多元数据的对应分析。
使用 DBSCAN 聚类算法对项目进行分组。
加载现有的距离文件。
可视化项目之间的距离。
可视化距离矩阵中的距离度量。
计算数据集中行/列之间的距离。
转换数据集中的距离。
使用层次聚类算法对项目进行分组。
使用 k 均值聚类算法对项目进行分组。
Groups items using the Louvain clustering algorithm.
非线性降维。
多维尺度分析(MDS)将数据投影到点之间给定距离的平面上
输入数据的 PCA 线性转换。
保存距离矩阵。
自组织映射的计算。
使用t-SNE进行二维数据投影。
可视化离散分类数据之间的比较。
显示属性值的分布。
CN2 规则查看
显示单个属性的值分布。
显示 FreeViz 投影。
绘制一对属性的热图。
具有探索性数据分析的线性投影方法。
使用折线图可视化数据
可视化数据走势(例如时间序列)。
在马赛克图中显示数据。
用于朴素贝叶斯和逻辑回归分类器。
毕达哥拉斯森林,用于可视化随机森林。
用于分类或回归树的可视化工具。
Radviz 可视化,具有探索性数据分析和智能数据可视化增强功能。
具有探索性分析和智能数据可视化增强功能的散点图可视化.
为一对属性绘制一个筛网图。
数据集群内一致性的图形表示。
分类树和回归树的可视化。
为两个或更多数据子集绘制维恩图。
下载地址 windows: 进入 win 文件夹, 下载压缩包解压即可使用 max: 进入 mac 文件夹, 下载安装即可使用 数据: 包含自然语言处理必要的 nltk 数据
这部分我们使用橙现智能完成一个简单线性回归的任务. 我们首先会建立一个 基准工作流, 此工作流不求好, 只求快. 接着再逐步优化模型.
通过上一部分简单线性回归了解了橙现智能的基本使用方法后, 我们开始一个复杂一些的任务, 多元线性回归.
上一部分通过使用散点图探索, 我们对数据有了更深入的了解, 这一部分我们就在此基础上, 做一下特征工程.
经过上一部分的特征工程, 我们已经有了一个相对较好的模型, 下一步我们还可以进一步优化模型, 然后根据模型参数解释模型
熟悉了线性回归之后, 我们接下来看看逻辑回归怎么处理.