词云(Word Cloud)

从语料库生成词云。

输入

  • 主题: 选定的主题。
  • 语料库: 文档的集合。

输出

  • 语料库: 与选择匹配的文档。
  • 选定的词: 选定的词,可作为词上下文(Concordance)中的查询词。
  • 词数:词及其权重。

功能

词云显示语料库中的词,其大小表示该词在语料库中的频率或平均词袋数。词在小组件中按其频率(权重)排列。小组件输出的文档,包含从词云中选择的词。

界面

  1. 输入的信息。
    • 主题中的词数
    • 语料库中的文件和词的数目
  2. 绘图设置。
    • 如果勾选给词上色,单词将被分配一个随机的颜色。如果不勾选,则单词将为黑色。
    • 词转角调整字词的倾斜度。倾斜度的当前状态会显示在滑块旁边(默认为 “无”)。
  3. 词 & 权重 按照词在语料库或主题中的频率显示一个排序的词列表。点击一个单词将在云中选择相同的单词并输出匹配的文档。使用 Ctrl 可选择多个单词。与所选单词匹配的任何一个文档都会在输出中(逻辑OR)。
  4. 保存图像将图像以.svg或.png.webp格式保存到电脑上。

示例

词云是用于显示语料库的当前状态和监控预处理的效果的一个很好的小工具。

使用语料库加载数据。将文本预处理连接到它,并设置你的参数。我们在这里使用了默认值,只是想看看词云小组件和文本预处理小组件中默认预处理的区别。

从这两个小工具中我们可以看到,预处理文本只显示单词,而词云中默认的预处理是按单词和标点符号进行分词的.

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里