大型分类文档语料库

Mar*_*rko 5 classification corpus dataset text-classification

任何人都可以指出我用于分类的一些大型语料库吗?

但总的来说,我不是指路透社或 20 个新闻组,我指的是 GB 大小的语料库,而不是 20MB 或类似的东西。

我只能找到这个路透社和 20 个新闻组,这对于我需要的东西来说非常小。

Ski*_*hie 6

最流行的文本分类评估数据集是:

然而,上面的数据集不满足“大”的要求。以下数据集可能符合您的标准:

您可以在此处浏览其他公开可用的数据集

除上述内容外,您可能需要开发自己的语料库。本周末晚些时候我将发布一个新闻语料库构建器,它将帮助您根据您选择的主题开发自定义语料库

更新:

已经创建了我上面提到的自定义语料库构建器模块,但忘记链接它News Corpus Builder