语料查看器(Corpus Viewer)

显示语料库内容。

输入

语料库: 文件集。

输出

语料库: 含有查询词的文件。

功能

语料查看器是用来查看文本文件（语料库实例）的。它总是会输出一个语料库的实例。如果使用 正则表达式 过滤，小组件将只输出匹配的文件。

界面

信息：
- 文件：输入的文件数量。
- 预处理：如果使用了预处理程序，结果为True，否则为False。同时报告词的数量和类型（唯一词）。
- POS标签：如果输入上有POS标签，结果为True，否则为False。
- N-grams范围：如果在文本预处理中设置了N-grams，则报告结果，默认为1-1（1-gram）。
- 匹配：与正则表达式删选匹配的文档数量。默认情况下，所有文档都会输出。
正则表达式筛选。使用Python正则表达式过滤文档。默认情况下，不过滤任何文档（输出的是整个语料库）。
搜索特征：正则表达式筛选的特征。使用Ctrl（Cmd）选择多个特征。
显示特征：在查看器中显示的特征。使用Ctrl（Cmd）选择多个特征。
显示词和标签：如果输入上有词和POS标签，可以勾选此框来显示它们。
如果自动提交开启，则会自动传达更改。或者按提交。

示例

语料查看器(Corpus Viewer)可以用来显示语料库中的全部或部分文档。在这个例子中，我们将首先把此插件中已经附带的 book-excerpts.tab 加载到[预料库]小部件中。然后我们将对文本进行预处理，将其转化为单词，过滤掉停用词，创建2-grams，并添加 POS 标签（更多关于预处理的内容请参见文本预处理。现在我们要查看预处理的结果。在语料查看器(Corpus Viewer)中，我们可以看到，我们得到了多少唯一的标记，以及它们是什么（勾选显示词和标签）。由于我们还使用了POS标签来显示部分part-of-speech标签，它们将与文本下方的标记一起显示。

现在我们将只过滤掉谈论 Bill 这个字符的文档。我们使用正则表达式 \bBill\b 来查找只包含Bill这个词的文档。你可以输出匹配或不匹配的文档，在另一个语料查看器(Corpus Viewer)中查看它们或进一步分析它们。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里