小编Mat*_*rei的帖子

自动删除旧的Python日志文件

我有一个每天运行的 Python 程序。我使用loggingFileHandler 模块将日志写入文件。我希望每次运行的日志都位于其自己的带有时间戳的文件中。但是,我想删除旧文件(例如 > 3 个月)以避免填满磁盘。

我查看了 RotatingFileHandler 和 TimedRotatingFileHandler,但我不希望单次运行的日志被分割到多个文件中,即使单次运行需要几天时间。有内置方法吗?

python logging

7
推荐指数
2
解决办法
2万
查看次数

计算每个pyspark RDD分区中的元素数

我正在寻找与这个问题相当的Pyspark:如何获得分区中的元素数量?.

具体来说,我想以编程方式计算pyspark RDD或dataframe的每个分区中的元素数量(我知道这些信息在Spark Web UI中可用).

此尝试导致"AttributeError:'NoneType'对象没有属性'_jvm'":

df.foreachPartition(lambda iter: sum(1 for _ in iter))

我不想将迭代器的内容收集到内存中.

partitioning pyspark

5
推荐指数
1
解决办法
4472
查看次数

标签 统计

logging ×1

partitioning ×1

pyspark ×1

python ×1