小编lal*_*yak的帖子

何时以及如何对分区密钥和排序密钥进行分区的Dynamodb GSI?

  1. 何时以及如何对分区密钥和排序密钥进行分区的Dynamodb GSI?
  2. 是否有像表分区这样的GSI分区的最大大小限制?
  3. 如果是,那么当一个基本的GSI(即所有记录中具有相同分区键的GSI)超过存储限制时会发生什么?

amazon-dynamodb dynamodb-utilization amazon-dynamodb-index

5
推荐指数
1
解决办法
794
查看次数

如何在保留最新数据的同时从火花数据框中删除重复项?

我正在使用 spark 从 Amazon S3 加载 json 文件。我想根据保留最新的数据框的两列删除重复项(我有时间戳列)。最好的方法是什么?请注意,重复项可能分布在多个分区中。我可以在不改组的情况下删除保留最后一条记录的重复项吗?我正在处理 1 TB 的数据。

我正在考虑按这两个列对数据框进行分区,这样所有重复记录都将“一致地散列”到同一分区中,因此分区级别排序后删除重复项将消除所有重复项,只保留一个。我不知道是否有可能。任何信息表示赞赏。

apache-spark-sql pyspark

5
推荐指数
1
解决办法
2171
查看次数

Pandas 系列按月索引排序

Dec    47
Nov    36
Oct    14
Sep     2
Jan     2
Aug     2
May     1
Apr     1
Jun     1
Jul     1
Feb     1
Name: date, dtype: int64
Run Code Online (Sandbox Code Playgroud)

我正在尝试按月对索引列是月份的上述系列进行排序。然而,排序函数不是按月份的日历顺序排序,而是按月份名称的字典顺序排序。如何正确排序以上内容?猜猜我必须指定索引类型是月份而不是字符串。任何帮助表示赞赏。下面的代码片段。

import calendar
movies = release_dates[release_dates.title.str.contains('Christmas') & (release_dates.country=='USA')]
movies = movies.date.dt.month.apply(lambda x: calendar.month_abbr[x])
counts = movies.value_counts()
counts
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
6097
查看次数