我想知道是什么样的区别标记和跨度在spaCy。
另外,我们必须使用跨度的主要原因是什么?为什么我们不能简单地使用令牌来做任何 NLP?特别是当我们使用spaCy 匹配器时?
简要背景:当我想在使用返回“ match_id ”、“ start ”和“ end ”等的spaCy 匹配器后获取 span 索引(它在字符串 doc 中的确切索引而不是在 spaCy doc 中的有序索引)时出现了我的问题我可以从这些信息中获得 span,而不是令牌。然后我需要创建一个training_data,它需要一个句子中单词的精确索引。如果我可以访问令牌,我可以简单地使用 token.idx 但 span 没有!所以我必须写额外的代码来找到它的句子中单词的索引(与span相同)!