文件夹载入(Import Documents)
从文件夹中导入文本文档。
输出
- 语料库: 本地机器上的文件集合。
功能
文件夹载入小部件从文件夹中检索文本文件并创建一个语料库。小工具读取 .txt、.docx、.odt、.pdf和.xml等文件。如果一个文件夹包含子文件夹,它们将被用作类别标签。
界面
- 正在加载的文件夹。
- 从本地机器加载文件夹。
- 重新加载数据。
- 检索的文件数量。
如果小组件因某种原因无法读取文件,则将跳过该文件。成功检索的文件仍将在输出中。
示例
要检索数据,选择小部件右侧的文件夹图标。选择您希望转为语料库的文件夹。加载完成后,您将看到检索到的文档数量。要检查它们,请将小组件连接到 语料查看器。我们使用了一组纯文本格式的肯尼迪的演讲稿。
现在让我们用子文件夹试试。我们把肯尼迪的演讲放在两个文件夹中–1962年以前和1962年以后。如果我加载父文件夹,这两个子文件夹将被用作类标签。检查数据表中此小部件的输出。
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里