词袋(Bag of Words)

从输入的语料库中生成一个词袋。

输入

  • 语料库: 文件集。

输出

  • 语料库: 附加了词袋特征的语料库。

功能

词袋模型为每个数据实例(文档)创建了一个带有各个词数量的语料库。词数可以是绝对数、二进制数(包含或不包含)或次线性数(词频的对数)。词袋模型与词充实结合使用,可用于预测性建模。

界面

  1. 词袋模型的参数。
    • 词频。
      • 个数:一个词在文档中出现的次数。
      • 二进制:文档中出现或不出现单词。
      • 个数的对数:词频的对数
    • 文件频率:
    • 正则化。
      • (无)
      • L1(元素之和):将向量长度归一化为元素之和。
      • L2(欧氏):将向量长度归一化为平方和。
  2. 制作一份报告。
  3. 如果自动发送开启,则会自动传达更改。或者按 发送

示例

在第一个例子中,我们将简单地检查词袋模型的大概。用语料库小部件加载book-excerpts.tab,并将其连接到词袋。这里我们保留了默认值 – 一个简单的词频计数。检查词袋数据表输出的内容。最后一列白色的是代表每个文档的词频。

在第二个例子中,我们将尝试预测文档类别。我们仍然使用 book-excerpts.tab 数据集,我们通过文本预处理发送默认参数。然后我们将文本预处理连接到词袋,获得词频,我们将通过这个频率来计算模型。

词袋连接到测试与评分进行预测建模。将支持向量机 (SVM)或任何其他分类器也连接到测试与评分(都在左侧)。现在,测试与评分将为每个学习器计算输入的性能分数。在这里,我们用 SVM 得到了相当令人印象深刻的结果。现在我们可以检查,模型在哪里犯了错误。

测试与评分中添加混淆矩阵。混淆矩阵显示正确和错误的分类文档。选择错误分类会输出错误分类的文档,我们可以用语料查看器进一步检查。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里