小编Vul*_*can的帖子

如何加快提取包含大量小文件的大 tgz 文件的速度?

我有一个 tar 存档(17GB),它由许多小文件(所有文件 <1MB )组成。我如何使用这个存档。

  1. 我提取它吗?在我的笔记本电脑上使用 7-zip 说这需要 20 小时(我认为它需要更多)
  2. 我可以在不提取文件的情况下阅读/浏览文件的内容吗?如果是,那么如何?
  3. 还有其他选择吗?

它实际上是一个经过处理的维基百科数据集,我应该在其上执行一些自然语言处理。

平台 Windows/Linux 不是问题;只要能尽快完成工作,什么都行。

linux windows archive large-data

5
推荐指数
2
解决办法
1万
查看次数

增加荧光笔返回的文本的长度

最初,我以为setMaxDocCharsToAnalyze(int)会增加输出长度,但不会。

目前,我的Search(String fragment)生成的输出少于一行,因此作为预览没有意义。

所产生的输出可以getBestFragment()增加,通过某种机制,以至少1句以上(这并不重要,如果它是一个半句子或更多,但我需要的是足够长的时间,至少使某些意义上) 。

索引:

Document document = new Document();
document.add(new TextField(FIELD_CONTENT, content, Field.Store.YES));
document.add(new StringField(FIELD_PATH, path, Field.Store.YES));
indexWriter.addDocument(document);
Run Code Online (Sandbox Code Playgroud)

正在搜寻

QueryParser queryParser = new QueryParser(FIELD_CONTENT, new StandardAnalyzer());
Query query = queryParser.parse(searchQuery);
QueryScorer queryScorer = new QueryScorer(query, FIELD_CONTENT);
Fragmenter fragmenter = new SimpleSpanFragmenter(queryScorer);

Highlighter highlighter = new Highlighter(queryScorer); // Set the best scorer fragments
highlighter.setMaxDocCharsToAnalyze(100000); //"HAS NO EFFECT"
highlighter.setTextFragmenter(fragmenter); 

// STEP B
File indexFile = new File(INDEX_DIRECTORY);
Directory directory = …
Run Code Online (Sandbox Code Playgroud)

lucene full-text-search highlight

2
推荐指数
1
解决办法
648
查看次数