使用doc2vec获得良好性能所需的最小数据集大小是多少?

pet*_*ude 6 nlp doc2vec

doc2vec在不同大小的数据集上训练时如何执行?在原始语料库中没有提到数据集大小,所以我想知道从doc2vec获得良好性能所需的最小大小是多少.

goj*_*omo 9

一堆东​​西被称为'doc2vec',但似乎最常见的是Le和Mikolov的'Paragraph Vector'技术.

最初的"段落矢量"论文描述了在三个数据集上进行评估:

  • 'Stanford Sentiment Treebank':11,825个电影评论的句子(进一步分为239,232个片段短语,每个短语几个字)
  • 'IMDB数据集':100,000个电影评论(通常每个几百字)
  • 搜索结果"代码段"段落:10,000,000个段落,从排名前1000,000个最常见查询的前10个Google搜索结果中收集

前两个是公开的,因此您还可以用单词,典型文档大小和词汇表来查看它们的总大小.(请注意,没有人能够在前两个数据集中完全重现该论文的情绪分类结果,这意味着他们的报告中缺少一些信息或错误.可以接近IMDB数据集.)

一个后续纸算法应用于发现在数据集外用-关系:

  • 维基百科:4,490,000篇文章正文
  • Arxiv:从PDF中提取的886,000份学术论文

因此,这两篇早期论文中使用的语料库范围从数万到数百万个文档,文档大小从几个单词短语到数千个单词的文章.(但这些作品并不一定要混合使用大小不同的文件.)

通常,word2vec/paragraph-vector技术受益于大量数据和各种单词上下文.如果没有至少数万份文件,我不会期望取得好成绩.超过几个字的文档每个工作都要好得多.如果在相同的培训中混合使用大小不同的文档或者混合推文,那么结果可能更难解释 - 例如混合推文和书籍.

但是你真的必须用你的语料库和目标来评估它,因为出于某些目的,某些数据的作用可能不适用于非常不同的项目.