小编nat*_*han的帖子

如何使用Genia Corpus训练斯坦福分析器？

我为Stanford Parser创建一个新模型有一些问题.

我还从斯坦福下载了最新版本:http: //nlp.stanford.edu/software/lex-parser.shtml

在这里,Genia Corpus有2种格式,xml和ptb(Penn Treebank).

Standford Parser可以用ptd文件训练; 然后我下载了Genia Corpus,因为我想使用生物医学文本:

~~http://categorizer.tmit.bme.hu/~illes/genia_ptb/~~ ^{(链接不再可用)} (genia_ptb.tar.gz)

然后,我有一个简短的Main类来获得一个生物医学句子的依赖表示:

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);

Run Code Online (Sandbox Code Playgroud)

我尝试了不同的方法,但始终得到相同的结果.

我在最后一行有一个错误.这是我的输出:

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false …

Run Code Online (Sandbox Code Playgroud)

java nlp stanford-nlp

nat*_*han

2017 01-22

93
推荐指数

1
解决办法

4250
查看次数

标签统计

java ×1

nlp ×1

stanford-nlp ×1

如何使用Genia Corpus训练斯坦福分析器？

标签 统计

小编nat_han的帖子

标签统计