小编KP.*_*KP.的帖子

你能否就lucene性能应遵循的步骤提出建议.特别是大数据(大约1TB的pdf文件要编入索引)

6
推荐指数

2
解决办法

5390
查看次数

我只是想知道我们是否可以在Lucene中实现一些RDBMS功能。

示例：1）我有10,000个项目文档（pdf文件），必须对其内容进行索引以使它们可用于搜索。2）每个文档都与一个项目相关。项目可以包含项目名称，编号，开始日期，结束日期，位置，类型等详细信息。

我必须在pdf文件的内容中搜索给定的关键字，但是在显示结果时，我要显示第（2）点中提到的项目元数据。

我的想法是在索引时将一个名为projectId的字段与每个pdf文件相关联。一旦获得该信息，我们将再次触发搜索以获取项目元数据。

这样我们可以避免重复数据。同样，如果我们要更新项目元数据，我们最终将只在一个地方进行更新。否则，如果我们将此元数据与所有pdf doument索引一起存储，则最终将更新所有文档，这不是我想要的方式。

请指教。

5
推荐指数

1
解决办法

5408
查看次数

小编KP._KP.的帖子