小编sea*_*avi的帖子

设计描述文件的python pickleable对象

我想创建一个描述文件资源的类,然后将其pickle.这部分很简单.具体来说,假设我有一个类"A",它具有对文件进行操作的方法.如果它不包含文件句柄,我可以pickle这个对象.我希望能够创建文件句柄以访问"A"描述的资源.如果我在类"A"中有一个"open()"方法打开并存储文件句柄供以后使用,那么"A"不再是pickleable.(我在这里添加打开文件包括一些不能缓存的非平凡索引 - 第三方代码 - 因此在需要时关闭和重新打开并非没有费用).我可以将类"A"编码为可以生成所描述文件的文件句柄的工厂,但这可能导致多个文件句柄同时访问文件内容.我可以使用另一个类"B"来处理类"A"中文件的打开,包括锁定等.我可能会过度思考这个,但任何提示都会受到赞赏.

python pickle

3
推荐指数
1
解决办法
1548
查看次数

ESS/Emacs中长时间运行的远程R会话的状态是什么?

我经常远程运行R,并且在RStudio服务器上取得了巨大的成功.但是,Emacs/ESS在许多情况下仍然是可取的,特别是因为我经常同时处理多个项目.当预期连接将被破坏时,在emacs中运行ESS/R时,最先进的是什么?更具体一点,我喜欢在Emacs中运行tmux会话,这样我就可以连接到在tmux(或屏幕)中运行的长时间运行的R会话.ESS/Emacs支持这种情况的状态是什么?这似乎随​​着时间的推移而发生变化,我还没有找到"明确的"方法(也许没有一种方法).

emacs session r ess tmux

3
推荐指数
1
解决办法
489
查看次数

启动Google DataProc群集以与Jupyter笔记本一起使用时,如何添加其他jar?

我正在按照说明使用初始化脚本启动Jupyter Notebook来启动Google DataProc集群。

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

如何在Jupyter笔记本(尤其是pyspark)的结果SparkContext中包含额外的JAR文件(例如,spark-xml)?

apache-spark google-cloud-dataproc jupyter-notebook

3
推荐指数
1
解决办法
902
查看次数

为什么这个页面不会加载到 iframe 中?

我有一些将页面加载到 iframe 的 html。这适用于此页面,例如:

https://seandavi.github.io/

但是,像这样的页面:

https://twitter.com/seandavis12/

结果是一个空的 iframe。我怀疑这与使用 javascript 部分呈现来自 twitter 的页面有关,但我不确定如何强制页面显示在 iframe 中。有什么建议?

我测试过的环境:Mac OS 上的 chrome 和 safari

最小的例子:

<html>
  <body>
    <iframe src="https://seandavi.github.io"></iframe>
    <iframe src="https://twitter.com/seandavis12/"></iframe>
  </body>
</html>
Run Code Online (Sandbox Code Playgroud)

html javascript iframe

3
推荐指数
1
解决办法
965
查看次数

如何避免 AWS EKS 上的连接断开?

我在 AWS EKS 上运行了一个简单的单 pod postgresql 部署(代码在这里)。我已经使用负载平衡器公开了 pod。

kubectl get services/postgres-lb -o yaml
Run Code Online (Sandbox Code Playgroud)

这产生以下结果:

apiVersion: v1
kind: Service
metadata:
  annotations:
    service.beta.kubernetes.io/aws-load-balancer-connection-draining-enabled: "false"
    service.beta.kubernetes.io/aws-load-balancer-type: nlb
  creationTimestamp: 2019-04-23T02:36:54Z
  labels:
    app: postgres
  name: postgres-lb
  namespace: default
  resourceVersion: "1522157"
  selfLink: /api/v1/namespaces/default/services/postgres-lb
  uid: <HASHREMOVED?
spec:
  clusterIP: 10.100.94.170
  externalTrafficPolicy: Cluster
  ports:
  - nodePort: 32331
    port: 5434
    protocol: TCP
    targetPort: 5432
  selector:
    app: postgres
  sessionAffinity: None
  type: LoadBalancer
status:
  loadBalancer:
    ingress:
    - hostname: ...aaadz-example.elb.us-east-1.amazonaws.com
Run Code Online (Sandbox Code Playgroud)

这有效,我可以按预期访问 pod。但是,如果不活动,与 postgresql 的连接似乎每分钟左右就会下降。我很确定至少有一些 AWS 负载均衡器会以这种方式“耗尽连接”;因此上面的注释不排除连接。但是,我仍然看到在空闲时断开连接的相同行为。

例如,AWS EKS 上托管数据库然后将其单个端口暴露给 Internet 的最佳实践是什么?网络搜索出现了许多变体,但所有变体要么过于复杂,要么不直接适用。我使用过 …

postgresql amazon-web-services kubernetes

3
推荐指数
1
解决办法
1247
查看次数

用于捕获有时仅存在的组的正则表达式

我有一组文件名,如:

PATJVI_RNA_Tumor_8_3_63BJTAAXX.310_BUSTARD-2012-02-19.fq.gz
PATMIF_RNA_Tumor_CGTGAT_2_1_BC0NKBACXX.334_BUSTARD-2012-05-07.fq.gz
Run Code Online (Sandbox Code Playgroud)

我想有一个正则表达式(在python中,fyi)可以捕获"_"字符之间的每个组.但请注意,在第二个文件名中,存在一个不存在于第一个文件名中的组.当然,可以使用字符串拆分等,但我想用一个正则表达式来做这个.第一个文件名的正则表达式如下:

(\w+)_(\w+)_(\w+)_(\d)_(\d)_(\w+)\.(\d+)_(\S+)\.fq\.gz
Run Code Online (Sandbox Code Playgroud)

第二个是:

(\w+)_(\w+)_(\w+)_(\w+)_(\d)_(\d)_(\w+)\.(\d+)_(\S+)\.fq\.gz
Run Code Online (Sandbox Code Playgroud)

当可选组存在时,我希望正则表达式组为空,并且当它存在时包含可选组(这样我以后可以使用它来构造带有\ 4的新文件名).

python regex grouping

2
推荐指数
1
解决办法
107
查看次数

处理IPython集群中的各种资源需求

我正在使用基于PBS的集群,并在一组节点上运行IPython并行,每个节点有24或32个内核,内存范围从24G到72G; 这种异质性是由于我们的集群有历史.另外,我发送给IPython集群的作业有不同的资源要求(核心和内存).我正在寻找一种方法来向ipython集群提交工作,这些工作了解他们的资源需求以及可用引擎的资源需求.我想有一种方法可以使用IPython功能优雅地处理这种情况,但我还没有找到它.有关如何进行的任何建议?

python parallel-processing cluster-computing ipython

2
推荐指数
1
解决办法
355
查看次数

如何解析和修改 R 表达式(可能使用非标准评估)?

我想将 R 表达式解析为列表,并在最终将其转换为 json 对象之前选择性地修改它的各个方面。举个例子,我正在尝试实现以下目标:

{"op": "=",
      "content": {
          "lhs": "gender",
          "rhs": ["male"]
      }
}
Run Code Online (Sandbox Code Playgroud)

我将从 R 表达式开始,例如:

gender == "male"
Run Code Online (Sandbox Code Playgroud)

我可以用来pryr::ast获取树的文本版本,但我想将其作为列表获取,例如:

op: "=="
  [[1]]: "gender"
  [[2]]: "male"
Run Code Online (Sandbox Code Playgroud)

列表的“格式”细节并不那么重要,只要清楚即可。我的目标只是获得一个可计算且可修改的 R 表达式解析树。

r lazy-evaluation pryr

1
推荐指数
1
解决办法
197
查看次数

如何通过加入Spark创建嵌套列?

我想在两个Spark DataFrames(Scala)上执行“联接”,但是我想将第二个DataFrame的“ joined”行作为单个嵌套列插入第一个,而不是类似SQL的联接。这样做的原因最终是使用嵌套结构写回JSON。我知道答案可能已经在Stackoverflow上了,但是一些搜索并没有找到我的答案。

表格1

root
 |-- Insdc: string (nullable = true)
 |-- LastMetaUpdate: string (nullable = true)
 |-- LastUpdate: string (nullable = true)
 |-- Published: string (nullable = true)
 |-- Received: string (nullable = true)
 |-- ReplacedBy: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Type: string (nullable = true)
 |-- accession: string (nullable = true)
 |-- alias: string (nullable = true)
 |-- attributes: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    | …
Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql

1
推荐指数
1
解决办法
1259
查看次数