适用于本地数据缓存的智能分页算法

Question

适用于本地数据缓存的智能分页算法

Sti*_*itt 10 algorithm pagination

这是我长期以来一直在思考的一个问题,但我还没有编写任何代码,因为我首先要解决一些我正在努力解决的一般问题.这是主要的一个.

背景

单页Web应用程序将数据请求发送到某个远程API(由我们控制).然后,它将此数据存储在本地缓存中,并从那里提供页面.理想情况下,应用程序在离线时仍保持完全正常运行,包括创建新对象的功能.

约束

假设包含+ - 50000个产品(50Mb)的产品的服务器端数据库
假设没有db类型,我们通过REST/GraphQL接口与它进行交互
假设单个产品记录<1kB
假设结果集的最大有效负载为256kB
假设客户端最多存储5MB
假设每次搜索范围在0到5000个项目之间的搜索结果集

挑战

挑战在于定义一种无状态但(网络)有效的方式从结果集中获取页面,以便确定性地得到我们得到的结果.

例

在传统的分页中,当使用此url获取某些查询的下一个100个结果时:

https://example.com/products?category=shoes&firstResult=100&pageSize=100

Run Code Online (Sandbox Code Playgroud)

搜索结果可能如下所示:

{
  "totalResults": 2458,
  "firstResult": 100,
  "pageSize": 100,
  "results": [
    {"some": "item"},
    {"some": "other item"},
    // 98 more ...
  ]
}

Run Code Online (Sandbox Code Playgroud)

这样做的问题在于,根据此信息,无法准确获取特定页面上的对象.因为在我们请求下一页时,结果集可能已更改(由于DB中的更改),从而影响哪些项是结果集的一部分.即使是一个小小的变化也会产生很大的影响:从数据库中删除的一个项目(恰好位于结果集的第0页)将改变我们在请求所有后续页面时将获得的结果.

目标

我正在寻找一种机制来使结果集的定义独立于未来的数据库更改,所以如果有人在寻找鞋子并获得2458项的结果集,他实际上可以可靠地获取该结果集的所有页面,即使它受到后来DB更改的影响(我打算不删除项目,但为此设置了删除的标志)

到目前为止的想法

我见过一个解决方案,其中结果集包含一个"pages"属性,该属性是一个数组,其中包含该页面中项目的第一个和最后一个id.假设您的ID数量不断增加并且您实际上没有从DB中删除项目,则两个ID之间的项目数量是不变的.这意味着应用程序可以获取这两个ID之间的所有项目,并始终返回完全相同的项目.这个解决方案的问题是它只有在列表按ID顺序排序时才有效...我需要自定义排序选项.

我现在提出的唯一方法就是在结果集中发送所有ID的列表......这样就可以通过执行SELECT * FROM products WHERE id IN (3,4,6,9,...)... 来获取页面...但这感觉相当不优雅......

无论如何,我希望它不是太广泛或理论上的.我有一个基于Web的数据库,不知道如何使用它进行分页.我正在寻找帮助我学习方向的答案,而不是完整的解决方案.

Answer 1

Ale*_*kin 5

数据库版本控制是结果集一致性的答案。每条记录都有主 ID、修改计数器（版本号）和修改/创建的时间戳。您无需修改记录 r，而是添加具有相同 id、版本号+1 和 sysdate 的新记录进行修改。

在获取响应中，您添加数据库 request_time （不要使用客户端时间戳，因为客户端/服务器之间可能存在时间差异）。第一页正常提供，但您返回 sysdate 作为 request_time。其他页面的服务方式有所不同：您为每个版本化表添加“modification_time <= request_time”等条件。

归档时间：	8 年，7 月前
查看次数：	1439 次
最近记录：	8 年，7 月前