小编Kas*_*sun的帖子

使用Lucene计算TFIDF分数

这是我计算文档集合中文档的TF-IDF值的程序.这工作正常,但在计算"IDF"值(查找包含特定术语的文档的数量)时需要花费大量时间.

是否有更有效的方法来查找包含特定术语的文档？

freq = termsFreq.getTermFrequencies();

terms = termsFreq.getTerms();

int noOfTerms = terms.length;
score = new float[noOfTerms];
DefaultSimilarity simi = new DefaultSimilarity();

        for (i = 0; i < noOfTerms; i++) {

            int noofDocsContainTerm = noOfDocsContainTerm(terms[i]);
            float tf = simi.tf(freq[i]);
            float idf = simi.idf(noofDocsContainTerm, noOfDocs);  
            score[i] = tf * idf ;

        }

Run Code Online (Sandbox Code Playgroud)

////

public int noOfDocsContainTerm(String querystr) throws CorruptIndexException, IOException, ParseException{

QueryParser qp=new QueryParser(Version.LUCENE_35, "docuemnt", new StandardAnalyzer(Version.LUCENE_35));  

Query q=qp.parse(querystr);

int hitsPerPage = docNames.length; //minumum number or search results
IndexSearcher searcher = new …

Run Code Online (Sandbox Code Playgroud)

java apache lucene

Kas*_*sun

lucky-day

4
推荐指数

1
解决办法

9683
查看次数

使用 Lucene 计算文档相似度的更好方法

我\xe2\x80\x99m 通过在索引时指定 TermVector 来使用 Lucene 索引文档集合。\n然后，我通过读取索引并计算每个文档的 TF-IDF 得分向量来检索术语及其频率。然后，使用 TF-IDF 向量，使用维基百科的余弦相似度方程计算文档之间的成对余弦相似度。

\n\n

这是我的问题：假设我在这个集合中有两个相同的文档 \xe2\x80\x9cA\xe2\x80\x9d 和 \xe2\x80\x9cB\xe2\x80\x9d （A 和 B 有超过 200 个句子）。如果我计算 A 和 B 之间的成对余弦相似度，它会给出余弦值=1，这是完全可以的。但是，如果我从 Doc \xe2\x80\x9cB\xe2\x80\x9d 中删除单个句子，它会给出这两个文档之间的余弦相似度值约为 0.85。这些文档几乎相似，但余弦值却不同。我知道问题出在 I\xe2\x80\x99m 使用的方程上。

\n\n

有没有更好的方法/方程可以用来计算文档之间的余弦相似度？

\n\n

已编辑

\n\n

这就是我计算余弦相似度的方法，doc1[]并且doc2[]是相应文档的 TF-IDF 向量。向量仅包含scores但不包含words

\n\n

private double cosineSimBetweenTwoDocs(float doc1[], float doc2[]) {\n    double temp;\n    int doc1Len = doc1.length;\n    int doc2Len = doc2.length;\n    float numerator = 0;\n    float temSumDoc1 = 0;\n    float temSumDoc2 = 0;\n    double equlideanNormOfDoc1 …

Run Code Online (Sandbox Code Playgroud)

java lucene similarity

Kas*_*sun

2012 10-29

3
推荐指数

1
解决办法

6555
查看次数