SpaCy模型培训数据:维基人

Question

对于xx_ent_wiki_smSpaCy的2.0版本的模型,提到了"WikiNER"数据集,其导致文章"从维基百科学习多语言命名实体识别".

是否有任何资源可用于下载此类数据集以重新训练该模型？或维基百科转储处理的脚本？

Answer 1

来自Joel(和我的)前研究员小组的数据服务器似乎处于脱机状态:http://downloads.schwa.org/wikiner

我在这里找到了wp3文件的镜像,这些是我在spaCy中使用的:https://github.com/dice-group/FOX/tree/master/input/Wikiner

要重新训练spaCy模型,你需要创建一个火车/开发分割(我会在网上进行直接比较,但是现在......只需随机剪切),并命名具有.iob扩展名的文件.然后使用:

spacy convert -n 10 /path/to/file.iob /output/directory

-n 10参数对于在spaCy中的使用很重要:它将句子连接成每个10个句子的"伪段落".这使模型可以了解文档可以带有多个句子.