词袋(Bag of Words)

从输入的语料库中生成一个词袋。

输入

词袋模型为每个数据实例（文档）创建了一个带有各个词数量的语料库。词数可以是绝对数、二进制数（包含或不包含）或次线性数（词频的对数）。词袋模型与词充实结合使用，可用于预测性建模。

在第一个例子中，我们将简单地检查词袋模型的大概。用语料库小部件加载book-excerpts.tab，并将其连接到词袋。这里我们保留了默认值 – 一个简单的词频计数。检查词袋在数据表输出的内容。最后一列白色的是代表每个文档的词频。

在第二个例子中，我们将尝试预测文档类别。我们仍然使用 book-excerpts.tab 数据集，我们通过文本预处理发送默认参数。然后我们将文本预处理连接到词袋，获得词频，我们将通过这个频率来计算模型。

将词袋连接到测试与评分进行预测建模。将支持向量机 (SVM)或任何其他分类器也连接到测试与评分（都在左侧）。现在，测试与评分将为每个学习器计算输入的性能分数。在这里，我们用 SVM 得到了相当令人印象深刻的结果。现在我们可以检查，模型在哪里犯了错误。

在测试与评分中添加混淆矩阵。混淆矩阵显示正确和错误的分类文档。选择错误分类会输出错误分类的文档，我们可以用语料查看器进一步检查。

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

进入反馈页面不知道如何反馈, 请点击这里