小编sam_ami的帖子

dask 可以使用无限的流输入吗

我知道 dask 在这样的批处理模式下工作得很好

def load(filename):
    ...

def clean(data):
    ...

def analyze(sequence_of_data):
    ...

def store(result):
    with open(..., 'w') as f:
        f.write(result)

dsk = {'load-1': (load, 'myfile.a.data'),
       'load-2': (load, 'myfile.b.data'),
       'load-3': (load, 'myfile.c.data'),
       'clean-1': (clean, 'load-1'),
       'clean-2': (clean, 'load-2'),
       'clean-3': (clean, 'load-3'),
       'analyze': (analyze, ['clean-%d' % i for i in [1, 2, 3]]),
       'store': (store, 'analyze')}

from dask.multiprocessing import get
get(dsk, 'store')  # executes in parallel

Run Code Online (Sandbox Code Playgroud)

我们可以使用 dask 来处理块数量未知甚至无穷无尽的流通道吗？
它可以以增量方式执行计算吗？例如，上面的“分析”步骤可以处理正在进行的块吗？
我们是否必须在所有数据块都已知之后才调用“get”操作，我们可以在调用“get”后添加新块吗

5
推荐指数

1
解决办法

1718
查看次数

有没有办法用sqlalchemy连接Spark-Sql

有没有一种方法可以将Spark-Sql与sqlalchemy连接起来我有使用sqlalchemy的遗留代码我如何使其使用spark-sql，我可以使sqlalchemy作为spark-sql的转换层吗？

python sqlalchemy apache-spark pyspark

5
推荐指数

1
解决办法

3152
查看次数

Hbase 是柱状数据库吗

Hbase表是基于列族的，这意味着每一列都是一个元组每一列存储在一起

这是否意味着 HBase 不是柱状数据库？列式数据库在 IO 方面是高效的，它们可以进行更好的压缩，因为单列的数据往往是相似的。所以一次压缩一列然后一次压缩整个表更容易

HBase 列族存储在一起的事实是否会降低效率，或者 HBase 是否做了一些聪明的技巧来保持列性质？

1
推荐指数

1
解决办法

2587
查看次数

标签统计

apache-spark ×1

dask ×1