Ayr*_*sey 6 python nlp stanford-nlp
我正在使用Stanford的CoreNLP库以及Stanford CoreNLP Python Wrapper处理大量文档.我正在使用以下注释器:
tokenize, ssplit, pos, lemma, ner, entitymentions, parse, dcoref
Run Code Online (Sandbox Code Playgroud)
以及shift-reduce解析器模型englishSR.ser.gz.我主要使用CoreNLP进行共同参考解析/命名实体识别,据我所知,我正在使用最小的注释器集来实现此目的.
我可以采用哪些方法来加快文档注释?
其他SO答案都建议不要为每个文档加载模型,但我已经这样做了(因为包装器启动服务器一次然后来回传递文档/结果).
我正在处理的文件平均长度为20个句子,有些句子长达400个句子,有些句子短至1.每个句子的平均解析时间为1秒.我可以在一台机器上运行一个单线程进程,每天解析~2500个文档,但我想加倍(如果不是更多).
尝试设置斯坦福 CoreNLP 服务器,而不是在每次运行时加载注释器。这样您就可以加载注释器一次并更快地处理文档。第一个过程会比较慢,但其余过程要快得多。查看斯坦福 CoreNLP 服务器的更多详细信息。
话虽如此,这通常是准确性和速度之间的权衡。因此,您可能需要对 NLTK 和 spacy 等其他工具进行尽职调查,看看哪种工具最适合您。
| 归档时间: |
|
| 查看次数: |
1292 次 |
| 最近记录: |