en_core_web_sm,en_core_web_md和en_core_web_lg spacy模型有什么区别?

Ani*_*tap 10 python spacy

我在系统上安装了spacy,我想解析/提取人的名字,英文组织。但是我在这里看到,英语有4个模型。并且有模型版本控制。我没有得到哪种模型较大,必须为开发选择哪种模型?

typ*_*n04 18

区别在于预测的准确性。

但是,正如您在 spaCy 文档中的比较中所看到的,差异非常小。

en_core_web_lg 788 MB相比en_core_web_sm 10 MB

  • LAS:90.07%89.66%
  • POS:96.98%96.78%
  • 无人机系统:91.83%91.53%
  • NER F 分数:86.62%85.86%
  • NER 精度:87.03%86.33%
  • NER 召回率:86.20%85.39%

所有这一切en_core_web_lg都大了79 倍,因此加载速度要慢得多。

我推荐的是en_core_web_sm在开发时使用,然后在生产中切换到更大的模型。您只需更改加载的模型即可轻松切换。

nlp = spacy.load("en_core_web_lg")
Run Code Online (Sandbox Code Playgroud)


AKX*_*AKX 13

sm/ md/ lg参考模型(小,中,大分别)的大小。

就像您链接到的“模型”页面上所说的那样,

模型差异主要是统计上的。总的来说,我们确实希望较大的模型“更好”并且总体上更准确。最终,这取决于您的用例和要求。我们建议从默认型号开始(下面标有星号)。

FWIW,该sm模型是默认模型(如上所述)