小编Dav*_*eld的帖子

是否可以在给定客户端实例的情况下关闭 dask.distributed 集群?

如果我有一个distributed.Client实例,我可以用它来关闭远程集群吗?即杀死所有工人并关闭调度程序?

如果使用Client实例无法做到这一点,除了手动杀死每个远程进程之外,还有其他方法吗?

distributed dask

6
推荐指数
1
解决办法
6476
查看次数

如何有效地对DatetimeIndex重新采样

熊猫resample在系列/数据框上有一种方法,但是似乎没有办法DatetimeIndex自行对其重新采样?

具体来说,我有一个Datetimeindex可能缺少日期的每日,我想以每小时频率重新采样一次,但只包括原始每日索引中的日期。

有没有比下面的尝试更好的方法了?

In [56]: daily_index = pd.period_range('01-Jan-2017', '31-Jan-2017', freq='B').asfreq('D')

In [57]: daily_index
Out[57]: 
PeriodIndex(['2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05',
             '2017-01-06', '2017-01-09', '2017-01-10', '2017-01-11',
             '2017-01-12', '2017-01-13', '2017-01-16', '2017-01-17',
             '2017-01-18', '2017-01-19', '2017-01-20', '2017-01-23',
             '2017-01-24', '2017-01-25', '2017-01-26', '2017-01-27',
             '2017-01-30', '2017-01-31'],
            dtype='int64', freq='D')

In [58]: daily_index.shape
Out[58]: (22,)

In [59]: hourly_index = pd.DatetimeIndex([]).union_many(
    ...:     pd.date_range(day.to_timestamp('H','S'), day.to_timestamp('H','E'), freq='H')
    ...:     for day in daily_index
    ...: )

In [60]: hourly_index
Out[60]: 
DatetimeIndex(['2017-01-02 00:00:00', '2017-01-02 01:00:00',
               '2017-01-02 02:00:00', '2017-01-02 03:00:00',
               '2017-01-02 04:00:00', '2017-01-02 …
Run Code Online (Sandbox Code Playgroud)

python pandas

4
推荐指数
2
解决办法
3699
查看次数

如何获取有关特定 Dask 任务的信息

我遇到了一个问题,我的分布式集群似乎“挂起” - 例如,任务停止处理,因此积压了未处理的任务,因此我正在寻找某种方法来帮助调试正在发生的事情。

Client一个processing方法可以告诉我每个工作人员当前正在运行哪些任务,但 AFAICS 这是有关对象上可用任务的唯一信息吗Client

我想要的是不仅能够查询处理任务,还能够查询所有任务,包括已处理、正在处理和出错的任务,并且每个任务都能够获取一些统计信息,例如submitted_time和 ,completion_time这将使我能够找出哪些任务正在阻塞集群。

这类似于ipyparallel.AsyncResult

一个很好的事情是能够获得args/kwargs任何给定的任务。这对于调试失败的任务特别有帮助。

目前是否有任何此功能可用,或者有什么方法可以获取我想要的信息?

关于如何调试问题的任何其他建议都将受到极大欢迎。

python distributed dask

3
推荐指数
1
解决办法
1591
查看次数

BlazingSQL 和 dask 是什么关系?

我试图了解 BlazingSQL 是 dask 的竞争对手还是补充。

我有一些中等大小的数据 (10-50GB) 作为镶木地板文件保存在 Azure blob 存储中。

IIUC 我可以使用 SQL 语法使用 BlazingSQL 查询、加入、聚合、分组,但我也可以dask_cudf使用 python/ dataframe 语法将数据读入 CuDF并执行所有相同的操作。

所以,在我看来他们是直接的竞争对手?

使用 dask 的(其中一个)好处是它可以对分区进行操作,因此可以对大于 GPU 内存的数据集进行操作,而 BlazingSQL 仅限于适合 GPU 的内容,这是否正确?

为什么会选择使用 BlazingSQL 而不是 dask?

编辑:
文档讨论dask_cudf但实际存储已存档,说 dask 支持现在cudf本身。最好知道如何利用dask比 gpu 内存更大的数据集进行操作cudf

gpu parquet dask cudf

3
推荐指数
1
解决办法
288
查看次数

标签 统计

dask ×3

distributed ×2

python ×2

cudf ×1

gpu ×1

pandas ×1

parquet ×1