尝试对希伯来语使用稀疏句子标记。
import spacy
nlp = spacy.load('he')
doc = nlp(text)
sents = list(doc.sents)
Run Code Online (Sandbox Code Playgroud)
我得到:
Warning: no model found for 'he'
Only loading the 'he' tokenizer.
Traceback (most recent call last):
...
sents = list(doc.sents)
File "spacy/tokens/doc.pyx", line 438, in __get__ (spacy/tokens/doc.cpp:9707)
raise ValueError( ValueError: Sentence boundary detection requires the dependency parse, which requires data to be installed. For more info, see the documentation: https://spacy.io/docs/usage
Run Code Online (Sandbox Code Playgroud)
该怎么办?
小智 5
spaCy 的希伯来语覆盖范围目前相当小。目前它仅支持希伯来语的单词标记化,它大致在空白处进行分割,并有一些额外的规则和例外。您想要的句子标记化/边界检测需要对句子进行更复杂的语法分析,以确定一个句子在哪里结束,另一个句子从哪里开始。这些模型需要大量标记的训练数据,因此可用于比标记化更少的语言(这里是列表)。
最初的消息告诉您它可以进行标记化,这不需要模型,然后您得到的错误是由于没有模型来分割句子、执行 NER 或 POS 等的结果。
您可以查看此列表以获取希伯来语 NLP 的其他资源。如果您找到足够的正确格式的标记数据并且您感到雄心勃勃,您可以使用此处描述的概述来训练您自己的希伯来语 spaCy 模型。
| 归档时间: |
|
| 查看次数: |
1625 次 |
| 最近记录: |