我有一个 tar 存档(17GB),它由许多小文件(所有文件 <1MB )组成。我如何使用这个存档。
它实际上是一个经过处理的维基百科数据集,我应该在其上执行一些自然语言处理。
平台 Windows/Linux 不是问题;只要能尽快完成工作,什么都行。
最初,我以为setMaxDocCharsToAnalyze(int)会增加输出长度,但不会。
目前,我的Search(String fragment)生成的输出少于一行,因此作为预览没有意义。
所产生的输出可以getBestFragment()增加,通过某种机制,以至少1句以上(这并不重要,如果它是一个半句子或更多,但我需要的是足够长的时间,至少使某些意义上) 。
Document document = new Document();
document.add(new TextField(FIELD_CONTENT, content, Field.Store.YES));
document.add(new StringField(FIELD_PATH, path, Field.Store.YES));
indexWriter.addDocument(document);
Run Code Online (Sandbox Code Playgroud)
QueryParser queryParser = new QueryParser(FIELD_CONTENT, new StandardAnalyzer());
Query query = queryParser.parse(searchQuery);
QueryScorer queryScorer = new QueryScorer(query, FIELD_CONTENT);
Fragmenter fragmenter = new SimpleSpanFragmenter(queryScorer);
Highlighter highlighter = new Highlighter(queryScorer); // Set the best scorer fragments
highlighter.setMaxDocCharsToAnalyze(100000); //"HAS NO EFFECT"
highlighter.setTextFragmenter(fragmenter);
// STEP B
File indexFile = new File(INDEX_DIRECTORY);
Directory directory = …Run Code Online (Sandbox Code Playgroud)