我现在已经找到了解决方案。当有一个doc:
doc = nlp("Helsinki is the capital of Finland.")
Run Code Online (Sandbox Code Playgroud)
词条在哪里:
[['<s>',
'H',
'els',
'inki',
'?is',
'?the',
'?capital',
'?of',
'?Finland',
'.',
'</s>']]
Run Code Online (Sandbox Code Playgroud)
然后,您可以使用以下代码访问例如第一个令牌的对齐方式:
# Get the first spaCy Token, "Helsinki", and its alignment data
doc[0], doc._.trf_data.align[0].data
Run Code Online (Sandbox Code Playgroud)
输出:
(Helsinki,
array([[1],
[2],
[3]], dtype=int32))
Run Code Online (Sandbox Code Playgroud)
然后您可以使用这些索引从doc._.trf_data.tensors.
来源:
(还提供了关于在spacy中使用transformer的更详细的解释和信息)
| 归档时间: |
|
| 查看次数: |
313 次 |
| 最近记录: |