小编Luc*_*caT的帖子

使用stanford-nlp分组一些文本

我正在使用stanford核心NLP,我使用这一行来加载一些模块来处理我的文本:

props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");

Run Code Online (Sandbox Code Playgroud)

我可以加载一个模块来分块文本吗？

或者任何使用stanford核心来改变某些文本的替代方法的建议？

谢谢

stanford-nlp

Luc*_*caT

2011 11-29

9
推荐指数

2
解决办法

8043
查看次数

Lucene - 精确的字符串匹配

我正在尝试创建一个Lucene 4.10索引.我只想在索引中保存我放入文档的确切字符串,没有标记化.

我正在使用StandardAnalyzer.

    Directory dir = FSDirectory.open(new File("myDire"));
    Analyzer analyzer = new StandardAnalyzer();
    IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_4_10_0, analyzer);
    iwc.setOpenMode(OpenMode.CREATE);
    IndexWriter writer = new IndexWriter(dir, iwc);
    StringField field1 = new StringField("1", content1, Store.YES);
    StringField field2 = new StringField("2", content2, Store.YES);
    StringField field3 = new StringField("3", content3, Store.YES);
    doc.add(field1);
    doc.add(field2);
    doc.add(field3);
    writer.addDocument(doc, analyzer);
    writer.close();

Run Code Online (Sandbox Code Playgroud)

如果我打印索引的内容,我可以看到我的数据被存储,例如,我的文档有这个"字段3":

    stored,indexed,tokenized,omitNorms,indexOptions=DOCS_ONLY<3:"Fuel Tank Capacity"@en>

Run Code Online (Sandbox Code Playgroud)

我正在尝试查询索引以便将其恢复:

    IndexSearcher searcher = new IndexSearcher(reader);
    Analyzer analyzer = new StandardAnalyzer();
    QueryParser parser = new QueryParser("3", analyzer);
    String queryString = "\"\"Fuel Tank Capacity"\@en\""; …

Run Code Online (Sandbox Code Playgroud)

java lucene tokenize

Luc*_*caT

lucky-day

7
推荐指数

1
解决办法

1万
查看次数