Corenlp文档级多线程

ali*_*der 5 multithreading nlp wikipedia multicore stanford-nlp

我有800万维基百科文章要解析.我想运行7个操作:tokenize,ssplit,pos,lemma,ner,parse,dcoref.每份文件大约需要20秒.在此速率中,需要数月才能在单线程中解析整个数据集.有一个'nthreads'选项可以同时解析连续的句子.但共同参考分析仪不能在单句水平上工作.我可以将文档分成多个桶并同时在每个桶上运行corenlp,但这很耗费资源.有没有更简单的方法在文档级别(而不是句子)运行多线程corenlp?(我有100 GB RAM和50个核心).