spaCy型号sm、md、lg之间的区别

Bra*_*roy 4 language-model spacy

我可以看到,在英语 spaCy 模型中,中型模型的性能优于小模型,而大型模型的性能优于中型模型 - 但只是略微优于。然而,在模型的描述中,写到它们都是在 OntoNotes 上训练的。md 和 lg 的向量是个例外,它们已在 CommonCrawl 上进行了训练。因此,如果所有模型都在同一数据集(OntoNotes)上进行训练,并且唯一的区别是向量,那么为什么不需要向量的任务会有性能差异呢?我很想了解有关每个模型及其训练设置等的更多信息,但似乎这些信息并不容易获得。

Ine*_*ani 5

\n

因此,如果所有模型都在同一数据集(OntoNotes)上进行训练,并且唯一的区别是向量,那么为什么不需要向量的任务会有性能差异呢?

\n
\n\n

我认为您正在寻找的缺失部分是:如果模型是用向量初始化的,那么这些向量将在训练期间用作特征。根据向量的不同,这可以显着提高您训练的统计模型组件的准确性。

\n\n

但是,向量可能非常大,因此您通常希望找到模型大小和准确性之间的最佳权衡。如果在训练期间使用向量,则在运行时也需要提供相同的向量,并且您不能轻易地将它们交换 \xe2\x80\x93 否则,模型的性能会更差。这sm模型未使用向量进行训练,允许您加载自己的向量以进行相似性比较,而不会影响预先训练的统计组件的预测。

\n\n

TL ; DR: spaCysm和核心模型都是在相同条件下使用相同数据进行训练的。唯一的区别是所包含的向量,它们用作特征,从而对模型的准确性产生影响。mdlg

\n