来自Joel(和我的)前研究员小组的数据服务器似乎处于脱机状态:http://downloads.schwa.org/wikiner
我在这里找到了wp3文件的镜像,这些是我在spaCy中使用的:https://github.com/dice-group/FOX/tree/master/input/Wikiner
要重新训练spaCy模型,你需要创建一个火车/开发分割(我会在网上进行直接比较,但是现在......只需随机剪切),并命名具有.iob扩展名的文件.然后使用:
spacy convert -n 10 /path/to/file.iob /output/directory
Run Code Online (Sandbox Code Playgroud)
-n 10参数对于在spaCy中的使用很重要:它将句子连接成每个10个句子的"伪段落".这使模型可以了解文档可以带有多个句子.
| 归档时间: |
|
| 查看次数: |
1809 次 |
| 最近记录: |