小编bil*_*l_e的帖子

我对 AWS 还很陌生，我正在尝试找到一种方法将数据从 Kinesis 流可靠地传输到 AWS RDS postgres 数据库表。记录在传入过程中需要进行小的转换，例如过滤器（并非所有记录都会被插入，具体取决于键），并解析以插入到 postgres 中。目前，来自 Kinesis 流的数据通过 Firehose 以 parquet 的形式转储到 S3 存储桶中。

我对这样做的许多可能的方式有点迷失，比如：

Kinesis 流 -> Firehose -> Lambda -> RDS
Kinesis 流 -> Firehose -> S3 -> 数据管道 ETL 作业 -> RDS
S3 -> RDS 的数据库迁移？
AWS 胶水？
其他的...？

在非无服务器世界中，我会每隔一小时运行一次 chron 作业，这将获取最近的 S3 存储桶分区（即年/月/日/小时）中的文件，即最近的一小时，并过滤掉RDS 中不需要的记录，并将其余记录批量插入到 RDS 中。我不希望 EC2 实例在 95% 的时间内处于空闲状态来执行此操作。有什么建议吗？

postgresql amazon-s3 amazon-web-services amazon-kinesis amazon-kinesis-firehose

bil*_*l_e

lucky-day

6
推荐指数

1
解决办法

5631
查看次数

了解R gbm包中的树结构

我很难理解R的gbm梯度增强机器包中的树木是如何构造的.具体来说,查看pretty.gbm.tree 指数SplitVar的哪些特征的输出指向？

我在数据集上训练了一个GBM,这里是我的一棵树的前四分之一 - 调用的结果是pretty.gbm.tree:

   SplitVar SplitCodePred LeftNode RightNode MissingNode ErrorReduction Weight   Prediction
0         9  6.250000e+01        1         2          21      0.6634681   5981  0.005000061
1        -1  1.895699e-12       -1        -1          -1      0.0000000   3013  0.018956988
2        31  4.462500e+02        3         4          20      1.0083722   2968 -0.009168477
3        -1  1.388483e-22       -1        -1          -1      0.0000000   1430  0.013884830
4        38  5.500000e+00        5        18          19      1.5748155   1538 -0.030602956
5        24  7.530000e+03        6        13          17      2.8329899    361 -0.078738904
6        41  2.750000e+01        7 …

Run Code Online (Sandbox Code Playgroud)

tree r gbm

bil*_*l_e

2015 11-29

5
推荐指数

1
解决办法

3884
查看次数

Dask Gateway，设置worker资源

我正在尝试按照此处的文档为工作人员设置资源，但设置使用 Dask Gateway。具体来说，我希望能够遵循这个问题的答案，但使用 Dask Gateway。

我无法在ClusterConfig 选项中找到对工作线程资源的引用，并且我尝试了以下操作（按照此答案），但这似乎不起作用：

def set_resources(dask_worker):
    dask_worker.set_resources(task_limit=1)
    return dask_worker.available_resources, dask_worker.total_resources

client.run(set_resources)

# output from a 1 worker cluster
> {'tls://255.0.91.211:39302': ({}, {})}


# checking info known by scheduler
cluster.scheduler_info

> {'type': 'Scheduler',
 'id': 'Scheduler-410438c9-6b3a-494d-974a-52d9e9fss121',
 'address': 'tls://255.0.44.161:8786',
 'services': {'dashboard': 8787, 'gateway': 8788},
 'started': 1632434883.9022279,
 'workers': {'tls://255.0.92.232:39305': {'type': 'Worker',
   'id': 'dask-worker-f95c163cf41647c6a6d85da9efa9919b-wvnf6',
   'host': '255.0.91.211',
   'resources': {}, #### still {} empty dict
   'local_directory': '/home/jovyan/dask-worker-space/worker-ir8tpkz_',
   'name': 'dask-worker-f95c157cf41647c6a6d85da9efa9919b-wvnf6',
   'nthreads': 4,
   'memory_limit': 6952476672,
   'services': {'dashboard': 8787},
   'nanny': …

Run Code Online (Sandbox Code Playgroud)

dask dask-kubernetes dask-gateway

bil*_*l_e

2021 09-24

5
推荐指数

1
解决办法

491
查看次数