使用doc2vec获得良好性能所需的最小数据集大小是多少？

Question

doc2vec在不同大小的数据集上训练时如何执行？在原始语料库中没有提到数据集大小,所以我想知道从doc2vec获得良好性能所需的最小大小是多少.

Answer 1

一堆东西被称为'doc2vec',但似乎最常见的是Le和Mikolov的'Paragraph Vector'技术.

最初的"段落矢量"论文描述了在三个数据集上进行评估:

前两个是公开的,因此您还可以用单词,典型文档大小和词汇表来查看它们的总大小.(请注意,没有人能够在前两个数据集中完全重现该论文的情绪分类结果,这意味着他们的报告中缺少一些信息或错误.可以接近IMDB数据集.)

一个后续纸算法应用于发现在数据集外用-关系:

因此,这两篇早期论文中使用的语料库范围从数万到数百万个文档,文档大小从几个单词短语到数千个单词的文章.(但这些作品并不一定要混合使用大小不同的文件.)

通常,word2vec/paragraph-vector技术受益于大量数据和各种单词上下文.如果没有至少数万份文件,我不会期望取得好成绩.超过几个字的文档每个工作都要好得多.如果在相同的培训中混合使用大小不同的文档或者混合推文,那么结果可能更难解释 - 例如混合推文和书籍.

但是你真的必须用你的语料库和目标来评估它,因为出于某些目的,某些数据的作用可能不适用于非常不同的项目.