网站地图

啥都没有了

哎呀, 你的页面没找到.

关于

橙现智能

下载

如何提交反馈

看得到的智能

橙现智能 – 让智能快速呈现免费开源人工智能工具可视化，无编程工作流，无门槛上手

教程

Posts by Tag

看得到的智能

橙现智能 – 让智能快速呈现免费开源人工智能工具可视化，无编程工作流，无门槛上手

你的树怎么查看? 试试毕达哥拉斯树吧

February 3, 2021 少于 1 分钟阅读

分类树很棒，但是当它们长太大甚至超过27’屏幕时又如何呢？我们可以使树看起来更紧凑，仍然讲述同样的故事吗？是的，我们可以。

使用轮廓系数吧

February 2, 2021 少于 1 分钟阅读

轮廓系数 (使用[轮廓图]) 显示簇内样本与最近簇内样本之间的平均距离。

层次聚类: 从原理到应用

February 1, 2021 少于 1 分钟阅读

探索性数据挖掘的关键技术之一是聚类-基于某种相似性度量将点分为不同的组。

查看哪里分类错了

December 14, 2020 少于 1 分钟阅读

分类是做出预测并从我们的数据中获取重要信息的关键方法之一。例如，我们可以基于某些症状预测哪些患者可能患有疾病。

层次聚类与探索性数据分析

December 13, 2020 少于 1 分钟阅读

我们将通过[层次聚类]进行聚类分析。我们使用了众所周知的鸢尾花 (iris) 数据集，其中包含 150 个鸢尾花，每个花都属于三种物种（setosa，versicolor 和 virginica）之一。

使用绘制数据学习数据分析

December 12, 2020 少于 1 分钟阅读

[绘制数据]小部件可能看起来仅仅是一个玩具，但与其他小部件结合使用后，它可以直观地演示诸多机器学习概念（例如k均值，分层聚, SVM，逻辑回归，等等。）

人工智能概述

人工智能是什么？它从哪里来，将要到那里去？它是一门计算机科学吗？它是《星际迷航》中的“Data”，还是人类的“终结者”或者“机械公敌”？或者是《人工智能》中的机器人大卫？呃，简单来说：是也不是。

机器学习概述

机器学习是现代人工智能的核心，深度学习作为机器学习的一种方法，使得人工智能取得了突破性的进展。

数据基础

机器学习涉及很多数据和统计学方面知识, 这里了解几个简单的术语

损失函数

如何知道一个模型是否好呢? 我们可以使用损失函数

训练与测试

模型的训练和测试是任何机器学习模型都会涉及的问题, 同时也是初学者容易出错的地方

梯度与梯度下降

在模型的训练过程中，会涉及到大量的参数设置问题，如何更快更好地设置这些参数，直接关系到最终模型的好坏。理解梯度下降算法，可以帮助我们调试出更好的模型。

超参数

模型超参数（Hyperparameter）是什么? 和模型参数什么区别?

过拟合与欠拟合

过拟合将会是机器学习的极大障碍，它是模型完美地或者很好地拟合了数据集的某一部分，但是此模型很可能并不能用来预测数据集的其他部分。

正则化

模型的复杂度上升会让模型能力更强，这是我们希望的。但是其副作用就是过拟合。如果为了防止过拟合就放弃复杂模型，其结果就像是倒掉洗澡水的时候把婴儿一起倒掉了。那怎么办呢？我们可以使用正则化技术在使用复杂模型的前提下防止过拟合。

线性回归

介绍回归的基本概念，进而引出最小二乘法，最后看看如何判断拟合的好坏。

逻辑回归

使用逻辑回归解决分类问题

支持向量机

熟悉了什么是分类问题，而且用逻辑回归实际进行了分类问题的练习后，下面看看另一个重要的分类算法 – 支持向量机。

决策树

决策树也称作分类树或回归树。叶子节点给出分类，内部节点代表某个特征，分支代表某个决策规则。构建决策树时通常采用自上而下的方法，在每一步选择一个最好的属性来分裂。”最好” 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义”最好”。

深入决策树

找到将数据最好地分类的特征，使用这个特征为根，使用某个规则分类数据，被分类的数据重复这个过程构建子树，直到完成构建。这句话隐藏着两个关键的问题：

应用变换(Apply Domain)

给定数据集和模板，转换数据集。

着色(Color)

设置变量的色彩图例

连接(Concatenate)

连接来自多个数据源的数据。

连续化(Continuize)

将离散变量（属性）转换为数字（连续）变量。

创建类别(Create Class)

从字符串属性创类别属性

创建实例(Create Instance)

从样本数据集中交互创建实例。

CSV导入(CSV File Import)

从CSV格式的文件导入数据。

数据信息（Data Info）

显示所选数据集的信息。

数据采集器(Data Sampler)

从输入数据集中选择数据实例的子集。

数据集(Datasets)

从在线存储库加载数据集。

数据表(Data Table)

在一张表格中显示属性值数据。

离散化(Discretize)

从输入数据集中离散化连续属性。

编辑特征(Edit Domain)

重命名特征及其值。

特征构造器(Feature Constructor)

为数据集构造新特征

特征统计(Feature Statistics)

显示特征的基本统计数据

文件(File)

从输入文件读取属性值数据

填充(Impute)

替换数据中的未知值。

加载数据

橙现智能拥有自己的数据格式，也可以处理Excel，逗号或制表符分隔的数据文件。

合并数据(Merge Data)

根据选定属性的值合并两个数据集。

近邻(Neighbors)

根据参考计算数据中最近的邻居。

异常值（Outliers）

异常值检测小部件。

绘制数据(Paint Data)

在2D平面上绘制数据。可以放置单个数据点或使用画笔绘制较大的数据集。

数据透视表（Pivot Table）

根据列值重塑数据表 WRONG

预处理(Preprocess)

使用选定的方法预处理数据。

清理特征(Purge Domain)

删除未使用的属性值和无用的属性，对剩余的值进行排序。

Python脚本(Python Script)

通过 Python 脚本来扩展功能。

随机化(Randomize)

将输入数据集的类别、属性和(或)元无序化

排名(Rank)

对分类或回归分析中的特征重要性进行排名。

保存数据(Save Data)

保存数据到文件

按数据索引选择（Select by Data Index）

通过数据子集中的索引匹配实例

选择列(Select Columns)

手动选择数据属性并组成数据域。

选择行（Select Rows）

根据选取条件选择数据实例。

SQL表(SQL Table)

从数据库读取数据

转置(Transpose)

转置数据表

卷积神经网络学习器(CNN Learner)

设置一个简单的卷积神经网络学习器

卷积神经网络预测(CNN Predict)

使用训练好的卷积神经网络预测

图片加载器(Image Loader)

载入所需图片

多标签识别 (Multi Label Recognition)

使用基于腾讯 AI 开放平台的服务进行多标签识别 (腾讯此服务可能不稳定)

TensorFlow 游乐场(TensorFlow Playground)

使用 TensorFlow Playground 学习深度学习

模型训练与测试(train & test)

训练深度学习模型

天气播报(Weather Report)

使用百度自然语言处理平台实现天气播报

校准图(Calibration Plot)

显示分类器的概率预测与实际分类概率之间的匹配。.

混淆矩阵(Confusion Matrix)

显示预测类和实际类之间的比例。

提升曲线(Lift Curve)

针对随机分类器衡量所选分类器的性能。

预测(Predictions)

显示模型对数据的预测。

ROC 分析(ROC Analysis)

相对于测试的假阳性率绘制真实的阳性率。

测试与评分(Test and Score)

测试数据的学习算法

自适应提升算法(AdaBoost)

一个集合了若干弱学习器并适应每个训练样本“难度”的集成元算法。

校准器(Calibrated Learner)

用概率校准和决策阈值优化来包装另一个学习者。

CN2 规则归纳(CN2 Rule Induction)

使用 CN2 算法从数据中归纳出规则。

常量预测(Constant)

从训练集中预测最频繁的类别或平均值。

梯度提升(Gradient Boosting)

在决策树上使用梯度提升进行预测。

k 近邻(kNN)

根据最靠近的训练实例进行预测。

线性回归(Linear Regression)

具有可选L1（LASSO），L2（岭）或L1L2（弹性网）正则化的线性回归算法。

加载模型(Load Model)

从输入文件加载模型。

逻辑回归(Logistic Regression)

具有LASSO（L1）或脊（L2）正则化的逻辑回归分类算法。

朴素贝叶斯(Naive Bayes)

基于贝叶斯定理的假设特征独立的快速简单概率分类器。

Neuralnetwork

A multi-layer perceptron (MLP) algorithm with backpropagation.

随机森林(Random Forest)

使用一组决策树进行预测。

保存模型(Save Model)

将经过训练的模型保存到输出文件。

堆叠(Stacking)

堆叠多个模型。

随机梯度下降(Stochastic Gradient Descent)

使用梯度下降的随机逼近最小化目标函数。

支持向量机(SVM)

支持向量机将输入映射到高维特征空间。

树(Tree)

具有正向剪枝的树算法。

爬行者(Crawler)

使用强化学习训练一个爬行者机器人

格子世界(Grid World)

使用马尔科夫决策过程或者 q 学习方法计算最佳路径

交互式LDA(LDAvis)

Interactive exploration of LDA topics.

词袋(Bag of Words)

从输入的语料库中生成一个词袋。

词上下文(Concordance)

显示该词的上下文。

语料库(Corpuls)

加载文本文档的语料库，（可选）用类别标记，或更改语料库的数据输入信号。

Corpus to Network

Creates a network from given corpus. Network nodes can be either documents or words (ngrams).

语料查看器(Corpus Viewer)

显示语料库内容。

文档嵌入(Document Embedding)

通过使用预先训练的fastText模型将文档嵌入向量空间,该模型在E. Grave等人（2018）中描述。

文档地图(Document Map)

显示文本中提到的地理位置。

查重(Duplicate Detection)

从语料库中检测和删除重复的内容。

关键词提取(Extract Keywords)

从输入语料库中推断出特征词。

文件夹载入(Import Documents)

从文件夹中导入文本文档。

文本预处理(Preprocess Text)

用选定的方法对语料进行预处理。

Pubmed

输入

文档评分(Score Documents)

Scores documents based on word appearance.

语义查看器(Semantic Viewer)

Displays corpus semantics.

相似哈希(Similarity Hashing)

计算文件的哈希值。

文档统计(Statistics)

为文档创建新的统计变量。

主题模型(Topic Modelling)

使用 Latent Dirichlet Allocation、Latent Semantic Indexing或Hierarchical Dirichlet Process 进行主题建模。

词云(Word Cloud)

从语料库生成词云。

词充实(Word Enrichment)

对选定的文件进行词语丰富性分析。

对应分析(Correspondence Analysis)

分类多元数据的对应分析。

DBSCAN

使用 DBSCAN 聚类算法对项目进行分组。

距离文件(Distance File)

加载现有的距离文件。

距离图(Distance Map)

可视化项目之间的距离。

距离矩阵(Distance Matrix)

可视化距离矩阵中的距离度量。

距离(Distances)

计算数据集中行/列之间的距离。

距离变换(Distance Transformation)

转换数据集中的距离。

层次聚类(Hierarchical Clustering)

使用层次聚类算法对项目进行分组。

k 均值(k-Means)

使用 k 均值聚类算法对项目进行分组。

Louvain Clustering

Groups items using the Louvain clustering algorithm.

流形学习(Manifold Learning)

非线性降维。

多维尺度分析(MDS)

多维尺度分析（MDS）将数据投影到点之间给定距离的平面上

主成分分析(PCA)

输入数据的 PCA 线性转换。

保存距离矩阵(Save Distance Matrix)

保存距离矩阵。

自组织映射(Self-Organizing Map)

自组织映射的计算。

t-SNE

使用t-SNE进行二维数据投影。

条形图(Bar Plot)

可视化离散分类数据之间的比较。

箱线图(Box Plot)

显示属性值的分布。

CN2 规则查看器(CN2 Rule Viewer)

CN2 规则查看

分布(Distributions)

显示单个属性的值分布。

FreeViz

显示 FreeViz 投影。

热图(Heat Map)

绘制一对属性的热图。

线性投影(Linear Projection)

具有探索性数据分析的线性投影方法。

折线图(Line Chart)

使用折线图可视化数据

数据画像(Line Plot)

可视化数据走势（例如时间序列）。

马赛克图(Mosaic Display)

在马赛克图中显示数据。

列线图(Nomogram)

用于朴素贝叶斯和逻辑回归分类器。

毕达哥拉斯森林(Pythagorean Forest)

毕达哥拉斯森林，用于可视化随机森林。

毕达哥拉斯树(Pythagorean Tree)

用于分类或回归树的可视化工具。

Radviz

Radviz 可视化，具有探索性数据分析和智能数据可视化增强功能。

散点图(Scatter Plot)

具有探索性分析和智能数据可视化增强功能的散点图可视化.

筛网图(Sieve Diagram)

为一对属性绘制一个筛网图。

轮廓图(Silhouette Plot)

数据集群内一致性的图形表示。

查看树(Tree Viewer)

分类树和回归树的可视化。

维恩图(Venn Diagram)

为两个或更多数据子集绘制维恩图。

下载与安装

下载地址 windows: 进入 win 文件夹, 下载压缩包解压即可使用 max: 进入 mac 文件夹, 下载安装即可使用数据: 包含自然语言处理必要的 nltk 数据

简单线性回归

这部分我们使用橙现智能完成一个简单线性回归的任务. 我们首先会建立一个基准工作流, 此工作流不求好, 只求快. 接着再逐步优化模型.

多元线性回归 – 使用散点图探索

通过上一部分简单线性回归了解了橙现智能的基本使用方法后, 我们开始一个复杂一些的任务, 多元线性回归.

多元线性回归 – 特征工程

上一部分通过使用散点图探索, 我们对数据有了更深入的了解, 这一部分我们就在此基础上, 做一下特征工程.

模型优化与解释

经过上一部分的特征工程, 我们已经有了一个相对较好的模型, 下一步我们还可以进一步优化模型, 然后根据模型参数解释模型

逻辑回归

熟悉了线性回归之后, 我们接下来看看逻辑回归怎么处理.

Pages

Posts

docs