相关疑难解决方法(0)

Spark是否支持对S3中的镶木地板文件进行真正的列扫描？

Parquet数据存储格式的一大好处是它是柱状的.如果我有一个包含数百列的'宽'数据集,但我的查询只涉及其中的一些,那么它可能只读取存储这几列的数据,并跳过其余的.

据推测,此功能的工作原理是在镶木地板文件的头部读取一些元数据,指示每列的文件系统上的位置.然后,读者可以在磁盘上寻找只读必要的列.

有谁知道spark的默认镶木地板阅读器是否正确地在S3上实现了这种选择性搜索？我认为它得到了S3的支持,但理论支持和正确利用该支持的实现之间存在很大差异.

amazon-s3 apache-spark parquet apache-spark-sql

con*_*lee

2017 11-29

31
推荐指数

2
解决办法

2635
查看次数

Python：预加载内存

我有一个 python 程序，我需要在其中加载和反序列化 1GB 的 pickle 文件。这需要 20 秒，我想要一种机制，可以随时使用泡菜的内容。我看过shared_memory但它的所有使用示例似乎都涉及 numpy 而我的项目不使用 numpy。使用shared_memory或以其他方式实现这一目标的最简单和最干净的方法是什么？

这就是我现在加载数据的方式（每次运行）：

def load_pickle(pickle_name):
    return pickle.load(open(DATA_ROOT + pickle_name, 'rb'))

Run Code Online (Sandbox Code Playgroud)

我希望能够在两次运行之间编辑模拟代码而无需重新加载泡菜。我一直在搞乱，importlib.reload但对于包含许多文件的大型 Python 程序来说，它似乎真的不太好用：

def main():
    data_manager.load_data()
    run_simulation()
    while True:
        try:
            importlib.reload(simulation)
            run_simulation()
        except:
        print(traceback.format_exc())
        print('Press enter to re-run main.py, CTRL-C to exit')
        sys.stdin.readline()

Run Code Online (Sandbox Code Playgroud)

python shared-memory

eta*_*luz

2021 06-19

26
推荐指数

2
解决办法

707
查看次数

更新apache镶木地板文件中的值

我有一个非常沉重的拼花文件,我需要更改其中一个列的值.一种方法是更新源文本文件中的这些值并重新创建镶木地板文件,但我想知道是否有更便宜,更简单的解决方案.

apache-spark parquet

mar*_*oss

2015 03-04

14
推荐指数

2
解决办法

1万
查看次数

这几天正在学习AWS。所以，如果这个问题太基础了，我很抱歉。我读过一堆关于 Parquet 相对于 CSV 的优点的开放式和封闭式问题（回答：与其他格式相比，Parquet 格式的优点和缺点是什么？），以及 RecordIO-protobuf 在文件与管道模式方面的优点和缺点（例如，未回答RecordIO 的吸引力是什么）。但是，我还没有看到 RecordIO-protobuf 和 Parquet 之间有任何比较。

以下是我可以从我的研究中收集到的信息：

Parquet是一种列式格式，但RecordIO-protobuf用于序列化。
并非所有 SageMaker 算法都支持 Parquet。大多数 SageMaker 算法在 RecordIO-protobuf 格式下效果最佳。（https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-training.html）

除了上述两个区别之外，使用 Parquet 与 recordIO 格式的优缺点是什么？此外，搜索“Parquet vs. RecordIO”给我的谷歌结果为零，这让我觉得我正在比较苹果和橙子。

我将不胜感激任何想法。

hadoop amazon-web-services parquet amazon-sagemaker

wat*_*wer

lucky-day

5
推荐指数

1
解决办法

3025
查看次数