小编bil*_*l_e的帖子

如何将github repo中的文件转换为gist

我想做的是这个问题的反面.我在github仓库中有一个文件夹,其中包含我想继续进行更改的d3可视化.很高兴有一个这个仓库的"gist"版本来显示bl.ocks.org上的可视化,我可以在我对它们满意之后将更改推送到主要仓库.

另一个类似的问题在这里,但答案描述了步骤gist - > bl.ocks.org.我不确定步骤githup repo - > gist.完成此任务的最佳方法是什么?

git gist github

24
推荐指数
1
解决办法
5419
查看次数

libc regcomp和regexec中的多字节字符

有没有得到正则libc6表达式函数regcompregexec使用多字节字符正常工作?

例如,如果我的模式是utf8字符??+?,则在utf8编码的字符串上找到匹配?????将失败,它应该成功.

我认为这是因为字符?的字节表示是\xe6\x9c\xba,并且+匹配一个或多个字节\xba.我可以通过在模式中的每个多字节字符周围加括号来使这个实例工作,但由于这是一个应用程序,我不能要求用户这样做.

有没有办法标记一个模式或字符串匹配为包含utf8字符?也许告诉libc将模式存储为wchar而不是char?

regex glibc utf-8 libc multibyte-functions

7
推荐指数
1
解决办法
482
查看次数

将数据从 Kinesis(或 s3)传输到 RDS postgres chron 作业

我对 AWS 还很陌生,我正在尝试找到一种方法将数据从 Kinesis 流可靠地传输到 AWS RDS postgres 数据库表。记录在传入过程中需要进行小的转换,例如过滤器(并非所有记录都会被插入,具体取决于键),并解析以插入到 postgres 中。目前,来自 Kinesis 流的数据通过 Firehose 以 parquet 的形式转储到 S3 存储桶中。

我对这样做的许多可能的方式有点迷失,比如:

  • Kinesis 流 -> Firehose -> Lambda -> RDS
  • Kinesis 流 -> Firehose -> S3 -> 数据管道 ETL 作业 -> RDS
  • S3 -> RDS 的数据库迁移?
  • AWS 胶水?
  • 其他的...?

在非无服务器世界中,我会每隔一小时运行一次 chron 作业,这将获取最近的 S3 存储桶分区(即年/月/日/小时)中的文件,即最近的一小时,并过滤掉RDS 中不需要的记录,并将其余记录批量插入到 RDS 中。我不希望 EC2 实例在 95% 的时间内处于空闲状态来执行此操作。有什么建议吗?

postgresql amazon-s3 amazon-web-services amazon-kinesis amazon-kinesis-firehose

6
推荐指数
1
解决办法
5631
查看次数

了解R gbm包中的树结构

我很难理解R的gbm梯度增强机器包中的树木是如何构造的.具体来说,查看pretty.gbm.tree 指数SplitVar哪些特征的输出指向

我在数据集上训练了一个GBM,这里是我的一棵树的前四分之一 - 调用的结果是pretty.gbm.tree:

   SplitVar SplitCodePred LeftNode RightNode MissingNode ErrorReduction Weight   Prediction
0         9  6.250000e+01        1         2          21      0.6634681   5981  0.005000061
1        -1  1.895699e-12       -1        -1          -1      0.0000000   3013  0.018956988
2        31  4.462500e+02        3         4          20      1.0083722   2968 -0.009168477
3        -1  1.388483e-22       -1        -1          -1      0.0000000   1430  0.013884830
4        38  5.500000e+00        5        18          19      1.5748155   1538 -0.030602956
5        24  7.530000e+03        6        13          17      2.8329899    361 -0.078738904
6        41  2.750000e+01        7 …
Run Code Online (Sandbox Code Playgroud)

tree r gbm

5
推荐指数
1
解决办法
3884
查看次数

Dask Gateway,设置worker资源

我正在尝试按照此处的文档为工作人员设置资源,但设置使用 Dask Gateway。具体来说,我希望能够遵循这个问题的答案,但使用 Dask Gateway。

我无法在ClusterConfig 选项中找到对工作线程资源的引用,并且我尝试了以下操作(按照此答案),但这似乎不起作用:

def set_resources(dask_worker):
    dask_worker.set_resources(task_limit=1)
    return dask_worker.available_resources, dask_worker.total_resources

client.run(set_resources)

# output from a 1 worker cluster
> {'tls://255.0.91.211:39302': ({}, {})}


# checking info known by scheduler
cluster.scheduler_info

> {'type': 'Scheduler',
 'id': 'Scheduler-410438c9-6b3a-494d-974a-52d9e9fss121',
 'address': 'tls://255.0.44.161:8786',
 'services': {'dashboard': 8787, 'gateway': 8788},
 'started': 1632434883.9022279,
 'workers': {'tls://255.0.92.232:39305': {'type': 'Worker',
   'id': 'dask-worker-f95c163cf41647c6a6d85da9efa9919b-wvnf6',
   'host': '255.0.91.211',
   'resources': {}, #### still {} empty dict
   'local_directory': '/home/jovyan/dask-worker-space/worker-ir8tpkz_',
   'name': 'dask-worker-f95c157cf41647c6a6d85da9efa9919b-wvnf6',
   'nthreads': 4,
   'memory_limit': 6952476672,
   'services': {'dashboard': 8787},
   'nanny': …
Run Code Online (Sandbox Code Playgroud)

dask dask-kubernetes dask-gateway

5
推荐指数
1
解决办法
491
查看次数

日期+%s结果是本地时区还是UTC?

当我输入date +%s终端时,是给出的结果时间戳UTC还是取决于我的系统区域设置?有办法检查吗?

跨操作系统有这个标准吗?

unix timestamp date utc

4
推荐指数
1
解决办法
7232
查看次数

Sun Grid Engine,每个节点强制执行一项作业

我正在使用 numpy 在使用 sun Grid Engine 分发作业(starcluster)的集群上运行相同作业的多次重复。我的每个节点都有 2 个内核(AWS 上的 c3.large)。所以说我有 5 个节点,每个节点有 2 个内核。

numpy 中的矩阵运算一次可以使用多个核心。我发现 SGE 将发送 10 个作业同时运行,每个作业使用一个核心。这导致作业的运行时间更长。看看 htop,看起来每个核心上的两个作业都在争夺资源。

我如何告诉 qsub 为每个节点分配 1 个作业。这样当我提交作业时,一次只能运行 5 个,而不是 10 个?

python parallel-processing numpy sungridengine starcluster

2
推荐指数
1
解决办法
805
查看次数