Parquet如何在S3中存储时间戳数据?

sub*_*ham 5 timestamp amazon-s3 parquet pyspark amazon-athena

我将数据以 file_name.snappy.parquet 格式存储在 S3 中。当我在 S3 中预览此文件时,我得到的时间戳字段为: {"ModifiedOn": 4.535976891407963e+25}

该字段是使用 pyspark TimestampType 创建的。当我在 Athena 表中看到此字段时,它显示为2020-04-18 21:55:41.000,如预期的那样。但是当我尝试手动转换它时,我得到了Monday, May 25, 3407 7:48:34.079 AM。(使用https://www.epochconverter.com/)假设此时间戳以纳秒(十亿分之一秒)为单位。

如何手动获取给定字段的正确日期?

小智 0

我也花了一段时间才找到这个解决方案。返回的日期时间为 INT96 格式。要将其转换回儒略历日期,请按照以下帖子操作:/sf/answers/4070837081/