网站地图

A list of all the posts and pages found on the site. For you robots out there is an XML version available for digesting as well.

Pages

看得到的智能

橙现智能 – 让智能快速呈现 免费开源人工智能工具 可视化,无编程工作流,无门槛上手

看得到的智能

橙现智能 – 让智能快速呈现 免费开源人工智能工具 可视化,无编程工作流,无门槛上手

Posts

你的树怎么查看? 试试毕达哥拉斯树吧

少于 1 分钟阅读

分类树很棒,但是当它们长太大甚至超过27’屏幕时又如何呢? 我们可以使树看起来更紧凑,仍然讲述同样的故事吗? 是的,我们可以。

使用轮廓系数吧

少于 1 分钟阅读

轮廓系数 (使用[轮廓图]) 显示簇内样本与最近簇内样本之间的平均距离。

层次聚类: 从原理到应用

少于 1 分钟阅读

探索性数据挖掘的关键技术之一是聚类-基于某种相似性度量将点分为不同的组。

查看哪里分类错了

少于 1 分钟阅读

分类是做出预测并从我们的数据中获取重要信息的关键方法之一。例如,我们可以基于某些症状预测哪些患者可能患有疾病。

层次聚类与探索性数据分析

少于 1 分钟阅读

我们将通过[层次聚类]进行聚类分析。我们使用了众所周知的鸢尾花 (iris) 数据集,其中包含 150 个鸢尾花,每个花都属于三种物种(setosa,versicolor 和 virginica)之一。

使用绘制数据学习数据分析

少于 1 分钟阅读

[绘制数据]小部件可能看起来仅仅是一个玩具,但与其他小部件结合使用后,它可以直观地演示诸多机器学习概念(例如k均值,分层聚, SVM,逻辑回归,等等。)

docs

人工智能概述

人工智能是什么?它从哪里来,将要到那里去?它是一门计算机科学吗?它是《星际迷航》中的“Data”,还是人类的“终结者”或者“机械公敌”?或者是《人工智能》中的机器人大卫?呃,简单来说:是也不是。

机器学习概述

机器学习是现代人工智能的核心,深度学习作为机器学习的一种方法,使得人工智能取得了突破性的进展。

数据基础

机器学习涉及很多数据和统计学方面知识, 这里了解几个简单的术语

损失函数

如何知道一个模型是否好呢? 我们可以使用损失函数

训练与测试

模型的训练和测试是任何机器学习模型都会涉及的问题, 同时也是初学者容易出错的地方

梯度与梯度下降

在模型的训练过程中,会涉及到大量的参数设置问题,如何更快更好地设置这些参数,直接关系到最终模型的好坏。理解梯度下降算法,可以帮助我们调试出更好的模型。

超参数

模型超参数(Hyperparameter)是什么? 和模型参数什么区别?

过拟合与欠拟合

过拟合将会是机器学习的极大障碍,它是模型完美地或者很好地拟合了数据集的某一部分,但是此模型很可能并不能用来预测数据集的其他部分。

正则化

模型的复杂度上升会让模型能力更强,这是我们希望的。但是其副作用就是过拟合。如果为了防止过拟合就放弃复杂模型,其结果就像是倒掉洗澡水的时候把婴儿一起倒掉了。那怎么办呢?我们可以使用正则化技术在使用复杂模型的前提下防止过拟合。

线性回归

介绍回归的基本概念,进而引出最小二乘法,最后看看如何判断拟合的好坏。

支持向量机

熟悉了什么是分类问题,而且用逻辑回归实际进行了分类问题的练习后,下面看看另一个重要的分类算法 – 支持向量机。

决策树

决策树也称作分类树或回归树。叶子节点给出分类,内部节点代表某个特征,分支代表某个决策规则。构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。”最好” 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义”最好”。

深入决策树

找到将数据最好地分类的特征,使用这个特征为根,使用某个规则分类数据,被分类的数据重复这个过程构建子树,直到完成构建。这句话隐藏着两个关键的问题:

加载数据

橙现智能拥有自己的数据格式,也可以处理Excel,逗号或制表符分隔的数据文件。

绘制数据(Paint Data)

在2D平面上绘制数据。可以放置单个数据点或使用画笔绘制较大的数据集。

排名(Rank)

对分类或回归分析中的特征重要性进行排名。

Neuralnetwork

A multi-layer perceptron (MLP) algorithm with backpropagation.

语料库(Corpuls)

加载文本文档的语料库,(可选)用类别标记,或更改语料库的数据输入信号。

Corpus to Network

Creates a network from given corpus. Network nodes can be either documents or words (ngrams).

DBSCAN

使用 DBSCAN 聚类算法对项目进行分组。

t-SNE

使用t-SNE进行二维数据投影。

Radviz

Radviz 可视化,具有探索性数据分析和智能数据可视化增强功能。

下载与安装

下载地址 windows: 进入 win 文件夹, 下载压缩包解压即可使用 max: 进入 mac 文件夹, 下载安装即可使用 数据: 包含自然语言处理必要的 nltk 数据

简单线性回归

这部分我们使用橙现智能完成一个简单线性回归的任务. 我们首先会建立一个 基准工作流, 此工作流不求好, 只求快. 接着再逐步优化模型.

多元线性回归 – 特征工程

上一部分通过使用散点图探索, 我们对数据有了更深入的了解, 这一部分我们就在此基础上, 做一下特征工程.

模型优化与解释

经过上一部分的特征工程, 我们已经有了一个相对较好的模型, 下一步我们还可以进一步优化模型, 然后根据模型参数解释模型

逻辑回归

熟悉了线性回归之后, 我们接下来看看逻辑回归怎么处理.