我为Stanford Parser创建一个新模型有一些问题.
我还从斯坦福下载了最新版本:http: //nlp.stanford.edu/software/lex-parser.shtml
在这里,Genia Corpus有2种格式,xml和ptb(Penn Treebank).
Standford Parser可以用ptd文件训练; 然后我下载了Genia Corpus,因为我想使用生物医学文本:
http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz)
然后,我有一个简短的Main类来获得一个生物医学句子的依赖表示:
String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";
Treebank tr = op.tlpParams.diskTreebank();
tr.loadPath(treebankPath);
LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);
Run Code Online (Sandbox Code Playgroud)
我尝试了不同的方法,但始终得到相同的结果.
我在最后一行有一个错误.这是我的输出:
Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false …Run Code Online (Sandbox Code Playgroud)