我正在尝试自定义Spacy的NER来识别印度名字。遵循本指南https://spacy.io/usage/training,这是我使用的数据集https://gist.githubusercontent.com/mbejda/9b93c7545c9dd93060bd/raw/b582593330765df3ccaae6f641f8cddc16f1e879/Indian-Female-Names.csv
根据代码,我应该以以下格式提供训练数据:
TRAIN_DATA = [
('Shivani', {
'entities': [(0, 6, 'PERSON')]
}),
('Isha ', {
'entities': [(0,3 , 'PERSON')]
})
]
Run Code Online (Sandbox Code Playgroud)
如何为Spacy提供约12000个名称的培训数据,因为手动指定每个实体都是一件繁琐的事情?是否有其他工具可以标记所有名称?