我想根据文档在spacy中添加用于标记化的特殊情况.该文档显示了特定单词如何被视为特殊情况.我希望能够指定一个模式(例如后缀).例如,我有一个像这样的字符串
text = "A sample string with <word-1> and <word-2>"
where <word-i>指定一个单词.
我知道我可以通过以下代码一次一个特例.但是我如何为此指定模式呢?
import spacy
from spacy.symbols import ORTH
nlp = spacy.load('en', vectors=False,parser=False, entity=False)
nlp.tokenizer.add_special_case(u'<WORD>', [{ORTH: u'<WORD>'}])
Run Code Online (Sandbox Code Playgroud)
您可以使用正则表达式匹配来查找特殊情况字符串的边界,然后使用spacy的合并方法将它们合并为单个标记.add_special_case仅适用于已定义的单词.这是一个例子:
>>> import spacy
>>> import re
>>> nlp = spacy.load('en')
>>> my_str = u'Tweet hashtags #MyHashOne #MyHashTwo'
>>> parsed = nlp(my_str)
>>> [(x.text,x.pos_) for x in parsed]
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#', u'NOUN'), (u'MyHashOne', u'NOUN'), (u'#', u'NOUN'), (u'MyHashTwo', u'PROPN')]
>>> indexes = [m.span() for m in re.finditer('#\w+',my_str,flags=re.IGNORECASE)]
>>> indexes
[(15, 25), (26, 36)]
>>> for start,end in indexes:
... parsed.merge(start_idx=start,end_idx=end)
...
#MyHashOne
#MyHashTwo
>>> [(x.text,x.pos_) for x in parsed]
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#MyHashOne', u'NOUN'), (u'#MyHashTwo', u'PROPN')]
>>>
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1386 次 |
| 最近记录: |