查询带有时间戳范围的cassandra表而不使用允许过滤

Question

查询带有时间戳范围的cassandra表而不使用允许过滤

我想添加类型的二级索引timestamp，以便能够按时间戳范围查询而无需“允许过滤”。我无法使用 timeuuid，因为时间戳与 now() 不同。我有日期时间，我应该将其转换为时间戳。

我想按时间查询，例如： session.execute("SELECT id from my_table WHERE date>'2019-09-01' AND date<'2019-09-04'")。

关于什么是正确的做法有什么建议吗？或者如何使用 python 中的 timuuid 和日期时间的输入？（将日期时间转换为 uuid 字段）

谢谢。

my_table = session.execute(""" CREATE TABLE IF NOT EXISTS my_keyspace.my_table
                            (id text,
                            date timestamp,
                            PRIMARY KEY (id) 
                            )""")

session.execute("CREATE INDEX time_idx ON my_keyspace.my_table (date)""")

Run Code Online (Sandbox Code Playgroud)

Answer 1

Aar*_*ron 5

每当我在 Cassandra 中看到一个表在几乎唯一的列上有一个主键（例如：）时，PRIMARY KEY (id)我就会预见到会发生这样的问题。您说得对，添加二级索引绝对是一种反模式。我对这些设计的问题是“你曾经查询过吗id？” 因为如果不这样做，它就不应该是唯一的主键。

我肯定会把你的桌子分区到其他东西上。 本质上，您想要一起查询的数据也想要一起存储。

假设对于您的用例，您实际上只关心上个月的数据。当然，这还假设单个分区上一个月的数据不会违反 Cassandra 每个分区 20 亿个单元的限制。但这将是一个很好的例子，所以我会像这样构建你的表：

CREATE TABLE data_by_month (
    id TEXT,
    date TIMESTAMP,
    month_bucket INT,
    value1 TEXT,
    value2 TEXT,
    PRIMARY KEY ((month_bucket),date,id));

Run Code Online (Sandbox Code Playgroud)

这是一种称为“时间桶”的建模技术。将每个月的所有数据存储在同一个“存储桶”中时，我现在可以运行如下查询：

aaron@cqlsh:stackoverflow> SELECT * from data_by_month
    WHERE date>'2019-09-01' AND date<'2019-09-04' AND month_bucket=201909 ;

 month_bucket | date                            | id | value1 | value2
--------------+---------------------------------+----+--------+--------
       201909 | 2019-09-02 23:21:00.000000+0000 | 4d |    456 |    abc
       201909 | 2019-09-03 12:34:00.000000+0000 | 1a |    123 |    abc

(2 rows)

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，4 月前
查看次数：	1192 次
最近记录：	6 年，4 月前