我有一个每天运行的 Python 程序。我使用loggingFileHandler 模块将日志写入文件。我希望每次运行的日志都位于其自己的带有时间戳的文件中。但是,我想删除旧文件(例如 > 3 个月)以避免填满磁盘。
我查看了 RotatingFileHandler 和 TimedRotatingFileHandler,但我不希望单次运行的日志被分割到多个文件中,即使单次运行需要几天时间。有内置方法吗?
我正在寻找与这个问题相当的Pyspark:如何获得分区中的元素数量?.
具体来说,我想以编程方式计算pyspark RDD或dataframe的每个分区中的元素数量(我知道这些信息在Spark Web UI中可用).
此尝试导致"AttributeError:'NoneType'对象没有属性'_jvm'":
df.foreachPartition(lambda iter: sum(1 for _ in iter))
我不想将迭代器的内容收集到内存中.