小编nat*_*han的帖子

如何使用Genia Corpus训练斯坦福分析器?

我为Stanford Parser创建一个新模型有一些问题.

我还从斯坦福下载了最新版本:http: //nlp.stanford.edu/software/lex-parser.shtml

在这里,Genia Corpus有2种格式,xml和ptb(Penn Treebank).

Standford Parser可以用ptd文件训练; 然后我下载了Genia Corpus,因为我想使用生物医学文本:

http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz)

然后,我有一个简短的Main类来获得一个生物医学句子的依赖表示:

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);
Run Code Online (Sandbox Code Playgroud)

我尝试了不同的方法,但始终得到相同的结果.

我在最后一行有一个错误.这是我的输出:

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false …
Run Code Online (Sandbox Code Playgroud)

java nlp stanford-nlp

93
推荐指数
1
解决办法
4250
查看次数

标签 统计

java ×1

nlp ×1

stanford-nlp ×1