小编Ayr*_*sey的帖子

我该怎么做才能加快斯坦福CoreNLP(dcoref/ner)的速度?

我正在使用Stanford的CoreNLP库以及Stanford CoreNLP Python Wrapper处理大量文档.我正在使用以下注释器:

tokenize, ssplit, pos, lemma, ner, entitymentions, parse, dcoref
Run Code Online (Sandbox Code Playgroud)

以及shift-reduce解析器模型englishSR.ser.gz.我主要使用CoreNLP进行共同参考解析/命名实体识别,据我所知,我正在使用最小的注释器集来实现此目的.

我可以采用哪些方法来加快文档注释?

其他SO答案都建议不要为每个文档加载模型,但我已经这样做了(因为包装器启动服务器一次然后来回传递文档/结果).

我正在处理的文件平均长度为20个句子,有些句子长达400个句子,有些句子短至1.每个句子的平均解析时间为1秒.我可以在一台机器上运行一个单线程进程,每天解析~2500个文档,但我想加倍(如果不是更多).

python nlp stanford-nlp

6
推荐指数
1
解决办法
1292
查看次数

我应该将单元测试提交给git分支?

我目前正在关注这里描述的流行的git工作流程.

它没有讨论的一件事是如何处理单元测试.假设我写了一些代码并提交develop.我想为它编写测试,但我不希望它在我的develop历史中,我想将测试分开,以便当我看到时git log我只看到主代码的更改.但是,如果我将测试提交到一个单独的test分支,我将不得不来回合并开发/测试,导致一个荒谬的合并提交杂乱.

你如何在git存储库中管理单元测试?

git version-control unit-testing git-flow

2
推荐指数
1
解决办法
2187
查看次数