cts:element-query vs cts:path-range-query 性能

Shi*_*are 4 marklogic marklogic-9

我们正在开发一个存储大量数据的企业应用程序。在我们的应用程序中,我们强制用户创建多个路径范围索引以加快搜索速度。

早些时候,我们利用路径范围索引来使用cts:path-range-query()加快搜索速度,但现在我发现使用cts:element-query()可以获得相同的结果,而无需创建路径范围索引。

例如 -

  1. 使用cts:path-range-query() -> 这里我需要为 /tXML/Message/INVENTORY/ASNId 创建路径范围索引

    xquery version "1.0-ml"; cts:uris('', (), cts:and-query((cts:collection-query("integration"), cts:path-range-query("/tXML/Message/INVENTORY/ASNId", "=", "10121600"))))

  2. 使用cts:element-query() -> 这里我不需要创建路径范围索引。

    xquery version "1.0-ml"; cts:uris('', (), cts:and-query((cts:collection-query("integration"), cts:element-query(xs:QName("tXML"),cts:element-query(xs:QName("Message"), cts:element-query(xs:QName("INVENTORY"), cts:element-value-query(xs:QName("ASNId"), "10121600")))))))

我的问题是,

  1. 如果我使用 cts:element-query() 得到与 cts:path-range-query() 相同的结果,那么为什么我需要强制用户创建路径范围索引?。

  2. 哪个查询适合大量数据?.(cts:element-query()cts:path-range-query()

请帮我找到这两个问题的答案。

grt*_*tjn 5

答案并不完全直接,这意味着结果可能因数据和数量而异。

不过有几个注意事项:

  • 您的查询在语义上并不相同。元素查询检查祖先,而在路径中你可以更严格,并且需要特定的父母,所以直接父子关系而不是祖先后代关系
  • 范围查询是针对具有预定义排序规则的范围索引进行解析的,并且始终针对整个(“精确”)值。然而,值查询是针对通用索引解决的。更具体地说,针对具有非词干标记的索引。如果您的值包含多个标记,则需要启用位置或过滤搜索以确保准确性。但是,您示例中的值仅包含一个令牌。
  • 路径范围索引在摄取时需要付出代价,略大于元素范围索引。范围索引也需要额外的内存。元素查询和元素值查询在搜索时需要做更多的工作来解决。但是,您可能需要一个大的测试集才能注意到显着差异。
  • 最后但并非最不重要的一点是,您不能在没有范围索引的情况下进行不等式查询或方面的值查找等。

哼!