我正在尝试为spancy NER训练新实体。我尝试将新实体添加到现有的spacy“ en”模型中。但是,这影响了“ en”和我的新实体的预测模型。
因此,我创建了一个空白模型并训练了实体识别。这很好。但是,它只能预测我接受过训练的对象,而不能预测常规的伪造实体识别。
假设我将“马”训练为动物实体。
对于给定的文本
txt ='Did you know that George bought those horses for 10000 dollars?'
Run Code Online (Sandbox Code Playgroud)
期望以下实体得到认可
George - PERSON
horses - ANIMAL
10000 dollars - MONEY.
Run Code Online (Sandbox Code Playgroud)
在我当前的设置中,它只能识别马匹。
nlp = spacy.load('en')
hsnlp = spacy.load('models/spacy/animal/')
nlp.add_pipe(hsnlp.pipeline[-1][-1], 'hsner')
nlp.pipe_names
Run Code Online (Sandbox Code Playgroud)
这给
----------------------
['tagger', 'parser', 'ner', 'hsner']
----------------------
Run Code Online (Sandbox Code Playgroud)
但是当我尝试执行
doc = nlp(txt) *<-- Gives me kernel error and stops working*
Run Code Online (Sandbox Code Playgroud)
请让我知道如何有效地为NER创建管道。我正在使用spacy 2.0.18
我试图看看是否可以使用文本的背景和前景色识别 PDF 内表格中可能的表格标题。通过 PyMuPDF 文本提取,我能够获得前景色。想知道是否有办法也获得背景颜色。
我正在使用 pymupdf 1.16.2 和 python 3.7 我已经检查了文档,但只能找到一种颜色字段,该颜色字段与文本颜色而不是背景颜色相关
如果有人知道如何使用 pyMuPDF 或其他软件包获取背景颜色,请告诉我