相关疑难解决方法(0)

生成镶木地板文件的元数据

我有一个蜂巢桌,建在一堆外部镶木地板文件的顶部.Paruqet文件应该由spark作业生成,但由于将元数据标志设置为false,因此不会生成它们.我想知道是否有可能以一种无痛的方式恢复它.文件结构如下:

/apps/hive/warehouse/test_db.db/test_table/_SUCCESS
/apps/hive/warehouse/test_db.db/test_table/_common_metadata
/apps/hive/warehouse/test_db.db/test_table/_metadata
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-20
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-21
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-22
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-23
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-24
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-25
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-26
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-27
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-28
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-29
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-30
Run Code Online (Sandbox Code Playgroud)

我们假设该文件_metadata是不存在的或过时的.有没有办法通过hive命令重新创建它/生成它而无需启动整个spark工作?

hadoop hive apache-spark parquet

15
推荐指数
1
解决办法
4225
查看次数

如何用pyarrow编写Parquet元数据?

我使用pyarrow来创建和分析具有生物学信息的Parquet表,我需要存储一些元数据,例如,数据来自哪个样本,如何获取和处理。

Parquet似乎支持文件范围的元数据,但是我无法找到如何通过pyarrow写入它。我能找到的最接近的东西是如何编写行组元数据,但这似乎是一个过大的选择,因为文件中所有行组的元数据都是相同的。

有什么方法可以用pyarrow编写文件范围的Parquet元数据吗?

python parquet pyarrow

8
推荐指数
2
解决办法
379
查看次数

标签 统计

parquet ×2

apache-spark ×1

hadoop ×1

hive ×1

pyarrow ×1

python ×1