我正在使用stanford核心NLP,我使用这一行来加载一些模块来处理我的文本:
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
Run Code Online (Sandbox Code Playgroud)
我可以加载一个模块来分块文本吗?
或者任何使用stanford核心来改变某些文本的替代方法的建议?
谢谢
我正在尝试创建一个Lucene 4.10索引.我只想在索引中保存我放入文档的确切字符串,没有标记化.
我正在使用StandardAnalyzer.
Directory dir = FSDirectory.open(new File("myDire"));
Analyzer analyzer = new StandardAnalyzer();
IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_4_10_0, analyzer);
iwc.setOpenMode(OpenMode.CREATE);
IndexWriter writer = new IndexWriter(dir, iwc);
StringField field1 = new StringField("1", content1, Store.YES);
StringField field2 = new StringField("2", content2, Store.YES);
StringField field3 = new StringField("3", content3, Store.YES);
doc.add(field1);
doc.add(field2);
doc.add(field3);
writer.addDocument(doc, analyzer);
writer.close();
Run Code Online (Sandbox Code Playgroud)
如果我打印索引的内容,我可以看到我的数据被存储,例如,我的文档有这个"字段3":
stored,indexed,tokenized,omitNorms,indexOptions=DOCS_ONLY<3:"Fuel Tank Capacity"@en>
Run Code Online (Sandbox Code Playgroud)
我正在尝试查询索引以便将其恢复:
IndexSearcher searcher = new IndexSearcher(reader);
Analyzer analyzer = new StandardAnalyzer();
QueryParser parser = new QueryParser("3", analyzer);
String queryString = "\"\"Fuel Tank Capacity"\@en\""; …Run Code Online (Sandbox Code Playgroud)