小编sam*_*ami的帖子

dask 可以使用无限的流输入吗

我知道 dask 在这样的批处理模式下工作得很好

def load(filename):
    ...

def clean(data):
    ...

def analyze(sequence_of_data):
    ...

def store(result):
    with open(..., 'w') as f:
        f.write(result)

dsk = {'load-1': (load, 'myfile.a.data'),
       'load-2': (load, 'myfile.b.data'),
       'load-3': (load, 'myfile.c.data'),
       'clean-1': (clean, 'load-1'),
       'clean-2': (clean, 'load-2'),
       'clean-3': (clean, 'load-3'),
       'analyze': (analyze, ['clean-%d' % i for i in [1, 2, 3]]),
       'store': (store, 'analyze')}

from dask.multiprocessing import get
get(dsk, 'store')  # executes in parallel
Run Code Online (Sandbox Code Playgroud)
  1. 我们可以使用 dask 来处理块数量未知甚至无穷无尽的流通道吗?
  2. 它可以以增量方式执行计算吗?例如,上面的“分析”步骤可以处理正在进行的块吗?
  3. 我们是否必须在所有数据块都已知之后才调用“get”操作,我们可以在调用“get”后添加新块吗

dask

5
推荐指数
1
解决办法
1718
查看次数

有没有办法用sqlalchemy连接Spark-Sql

有没有一种方法可以将Spark-Sql与sqlalchemy连接起来我有使用sqlalchemy的遗留代码我如何使其使用spark-sql,我可以使sqlalchemy作为spark-sql的转换层吗?

python sqlalchemy apache-spark pyspark

5
推荐指数
1
解决办法
3152
查看次数

Hbase 是柱状数据库吗

Hbase表是基于列族的,这意味着每一列都是一个元组每一列存储在一起

这是否意味着 HBase 不是柱状数据库?列式数据库在 IO 方面是高效的,它们可以进行更好的压缩,因为单列的数据往往是相似的。所以一次压缩一列然后一次压缩整个表更容易

HBase 列族存储在一起的事实是否会降低效率,或者 HBase 是否做了一些聪明的技巧来保持列性质?

hbase

1
推荐指数
1
解决办法
2587
查看次数

标签 统计

apache-spark ×1

dask ×1

hbase ×1

pyspark ×1

python ×1

sqlalchemy ×1