小编Vul*_*can的帖子

如何加快提取包含大量小文件的大 tgz 文件的速度？

我有一个 tar 存档（17GB），它由许多小文件（所有文件 <1MB ）组成。我如何使用这个存档。

我提取它吗？在我的笔记本电脑上使用 7-zip 说这需要 20 小时（我认为它需要更多）
我可以在不提取文件的情况下阅读/浏览文件的内容吗？如果是，那么如何？
还有其他选择吗？

它实际上是一个经过处理的维基百科数据集，我应该在其上执行一些自然语言处理。

平台 Windows/Linux 不是问题；只要能尽快完成工作，什么都行。

linux windows archive large-data

Vul*_*can

2017 09-23

5
推荐指数

2
解决办法

1万
查看次数

增加荧光笔返回的文本的长度

最初，我以为setMaxDocCharsToAnalyze(int)会增加输出长度，但不会。

目前，我的Search（String fragment）生成的输出少于一行，因此作为预览没有意义。

所产生的输出可以getBestFragment()增加，通过某种机制，以至少1句以上（这并不重要，如果它是一个半句子或更多，但我需要的是足够长的时间，至少使某些意义上）。

索引：

Document document = new Document();
document.add(new TextField(FIELD_CONTENT, content, Field.Store.YES));
document.add(new StringField(FIELD_PATH, path, Field.Store.YES));
indexWriter.addDocument(document);

Run Code Online (Sandbox Code Playgroud)

正在搜寻

QueryParser queryParser = new QueryParser(FIELD_CONTENT, new StandardAnalyzer());
Query query = queryParser.parse(searchQuery);
QueryScorer queryScorer = new QueryScorer(query, FIELD_CONTENT);
Fragmenter fragmenter = new SimpleSpanFragmenter(queryScorer);

Highlighter highlighter = new Highlighter(queryScorer); // Set the best scorer fragments
highlighter.setMaxDocCharsToAnalyze(100000); //"HAS NO EFFECT"
highlighter.setTextFragmenter(fragmenter); 

// STEP B
File indexFile = new File(INDEX_DIRECTORY);
Directory directory = …

Run Code Online (Sandbox Code Playgroud)

lucene full-text-search highlight

Vul*_*can

2016 03-24

2
推荐指数

1
解决办法

648
查看次数