我正在使用新发布的Lucene 4,我理解与文档术语向量相关的API已经发生了很大变化.我已经阅读了迁移文档和相关的各种各样的博客邮件列表帖子,我相信我正在使用API.但是,我总是从IndexReader.getTermVector()获得一个null Term引用.这是我正在做的事情:
// Indexing, given "bodyString" as a String containing document text
Document doc = new Document();
doc.add(new TextField("body", bodyString, Field.Store.YES));
MyIndexWriter.addDocument(doc);
// much later, enumerating document term vectors for "body" field for every doc
for (int i = 0; i < Reader.maxDoc(); ++i) {
final Terms terms = Reader.getTermVector(i, "body");
if (terms != null) {
int numTerms = 0;
// record term occurrences for corpus terms above threshold
term = terms.iterator(term);
while (term.next() != null) {
++numTerms;
}
System.out.println("Document " + i + " had " + numTerms + " terms");
}
else {
System.err.println("Document " + i + " had a null terms vector for body");
}
}
Run Code Online (Sandbox Code Playgroud)
当然,它打印出每个doc都有空术语向量,即Reader.getTermVector(i,"body")总是返回null.
当我查看Luke中的索引时,我有一些存储了body字段的文档.但是,当我点击"电视"按钮(在"文档"选项卡中),同时突出显示正文字段时,卢克告诉我"术语向量不可用".索引时是否需要添加其他类型的选项来记录此信息?
有任何想法吗?谢谢!
乔恩
更新
我应该注意到有IndexReader
问题的是一个实例SlowCompositeReaderWrapper
,它正在包装一个DirectoryReader
.我正在使用a,SlowCompositeReaderWrapper
因为我也想要语料库术语频率,并且不清楚如何迭代所有IndexReader
叶子上的所有文档(doc doc是否可以在它们之间重复使用?等).
SlowCompositeReaderWrapper是罪魁祸首吗?
fem*_*gon 12
根据TextField API,它是"一个被索引和标记化的字段,没有术语向量".如果您希望存储TermVectors,您应该只使用一个Field,并将其设置为在FieldType中存储TermVectors .
就像是:
Document doc = new Document();
FieldType type = new FieldType();
type.setIndexed(true);
type.setStored(true);
type.setStoreTermVectors(true);
Field field = new Field("body", bodyString, type);
doc.add(field);
MyIndexWriter.addDocument(doc);
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4128 次 |
最近记录: |