我最近开始使用SpaCy的NLP之旅,我有大约5,500个字符串,我想要标记.对于前100个,我使用带有自定义列的电子表格执行此操作,然后通过脚本运行以生成Python词典.在工作表中,我已经删除了字符串,标签类型,标签值.然后该脚本计算出字符串中标签值的位置.
以这种方式生成培训数据相当费时,并且容易出错.
有没有工具可以帮助解决这个问题?我只需要能够突出显示子字符串,然后选择标签类型.我可以自己构建它,但我觉得它可能已经存在.
我是spaCy的维护者之一,我们实际上一直在考虑这个问题!因此,我们构建了Prodigy,这是一个与spaCy集成的注释工具,并将模型放入循环中,以帮助您更快地训练和评估模型.它目前处于测试阶段,但您可以注册免费邀请.Prodigy对其他注释工具的click-drag-highlight-select概念略有不同.它使用循环中的模型来建议具有最相关梯度的注释用于训练,并且仅询问您简单的二进制反馈:接受或拒绝.这使您可以快速浏览示例.当您注释时,循环中的模型会更新,其预测将影响Prodigy接下来要求的内容.
如果您希望改进spaCy模型中存在的现有实体类型,或者您正在处理要用于注释的大型示例文本,则此方法尤其有用.
如果您正在寻找一种更专门用于突出显示和注释文本范围的工具,您还应该查看Brat.我不是100%确定输出的样子,但你绝对应该能够将它转换为spaCy的训练格式.还有一个可训练版本的displaCy ENT可视化器,由社区中的某个人开发.
| 归档时间: |
|
| 查看次数: |
2983 次 |
| 最近记录: |