小编sea*_*avi的帖子

设计描述文件的python pickleable对象

我想创建一个描述文件资源的类,然后将其pickle.这部分很简单.具体来说,假设我有一个类"A",它具有对文件进行操作的方法.如果它不包含文件句柄,我可以pickle这个对象.我希望能够创建文件句柄以访问"A"描述的资源.如果我在类"A"中有一个"open()"方法打开并存储文件句柄供以后使用,那么"A"不再是pickleable.(我在这里添加打开文件包括一些不能缓存的非平凡索引 - 第三方代码 - 因此在需要时关闭和重新打开并非没有费用).我可以将类"A"编码为可以生成所描述文件的文件句柄的工厂,但这可能导致多个文件句柄同时访问文件内容.我可以使用另一个类"B"来处理类"A"中文件的打开,包括锁定等.我可能会过度思考这个,但任何提示都会受到赞赏.

python pickle

sea*_*avi

2010 11-06

3
推荐指数

1
解决办法

1548
查看次数

ESS/Emacs中长时间运行的远程R会话的状态是什么？

我经常远程运行R,并且在RStudio服务器上取得了巨大的成功.但是,Emacs/ESS在许多情况下仍然是可取的,特别是因为我经常同时处理多个项目.当预期连接将被破坏时,在emacs中运行ESS/R时,最先进的是什么？更具体一点,我喜欢在Emacs中运行tmux会话,这样我就可以连接到在tmux(或屏幕)中运行的长时间运行的R会话.ESS/Emacs支持这种情况的状态是什么？这似乎随着时间的推移而发生变化,我还没有找到"明确的"方法(也许没有一种方法).

emacs session r ess tmux

sea*_*avi

lucky-day

3
推荐指数

1
解决办法

489
查看次数

启动Google DataProc群集以与Jupyter笔记本一起使用时，如何添加其他jar？

我正在按照说明使用初始化脚本启动Jupyter Notebook来启动Google DataProc集群。

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

如何在Jupyter笔记本（尤其是pyspark）的结果SparkContext中包含额外的JAR文件（例如，spark-xml）？

apache-spark google-cloud-dataproc jupyter-notebook

sea*_*avi

lucky-day

3
推荐指数

1
解决办法

902
查看次数

为什么这个页面不会加载到 iframe 中？

我有一些将页面加载到 iframe 的 html。这适用于此页面，例如：

https://seandavi.github.io/

但是，像这样的页面：

https://twitter.com/seandavis12/

结果是一个空的 iframe。我怀疑这与使用 javascript 部分呈现来自 twitter 的页面有关，但我不确定如何强制页面显示在 iframe 中。有什么建议？

我测试过的环境：Mac OS 上的 chrome 和 safari

最小的例子：

<html>
  <body>
    <iframe src="https://seandavi.github.io"></iframe>
    <iframe src="https://twitter.com/seandavis12/"></iframe>
  </body>
</html>

Run Code Online (Sandbox Code Playgroud)

html javascript iframe

sea*_*avi

2017 12-04

3
推荐指数

1
解决办法

965
查看次数

如何避免 AWS EKS 上的连接断开？

我在 AWS EKS 上运行了一个简单的单 pod postgresql 部署（代码在这里）。我已经使用负载平衡器公开了 pod。

kubectl get services/postgres-lb -o yaml

Run Code Online (Sandbox Code Playgroud)

这产生以下结果：

apiVersion: v1
kind: Service
metadata:
  annotations:
    service.beta.kubernetes.io/aws-load-balancer-connection-draining-enabled: "false"
    service.beta.kubernetes.io/aws-load-balancer-type: nlb
  creationTimestamp: 2019-04-23T02:36:54Z
  labels:
    app: postgres
  name: postgres-lb
  namespace: default
  resourceVersion: "1522157"
  selfLink: /api/v1/namespaces/default/services/postgres-lb
  uid: <HASHREMOVED?
spec:
  clusterIP: 10.100.94.170
  externalTrafficPolicy: Cluster
  ports:
  - nodePort: 32331
    port: 5434
    protocol: TCP
    targetPort: 5432
  selector:
    app: postgres
  sessionAffinity: None
  type: LoadBalancer
status:
  loadBalancer:
    ingress:
    - hostname: ...aaadz-example.elb.us-east-1.amazonaws.com

Run Code Online (Sandbox Code Playgroud)

这有效，我可以按预期访问 pod。但是，如果不活动，与 postgresql 的连接似乎每分钟左右就会下降。我很确定至少有一些 AWS 负载均衡器会以这种方式“耗尽连接”；因此上面的注释不排除连接。但是，我仍然看到在空闲时断开连接的相同行为。

例如，AWS EKS 上托管数据库然后将其单个端口暴露给 Internet 的最佳实践是什么？网络搜索出现了许多变体，但所有变体要么过于复杂，要么不直接适用。我使用过 …

postgresql amazon-web-services kubernetes

sea*_*avi

lucky-day

3
推荐指数

1
解决办法

1247
查看次数

用于捕获有时仅存在的组的正则表达式

我有一组文件名,如:

PATJVI_RNA_Tumor_8_3_63BJTAAXX.310_BUSTARD-2012-02-19.fq.gz
PATMIF_RNA_Tumor_CGTGAT_2_1_BC0NKBACXX.334_BUSTARD-2012-05-07.fq.gz

Run Code Online (Sandbox Code Playgroud)

我想有一个正则表达式(在python中,fyi)可以捕获"_"字符之间的每个组.但请注意,在第二个文件名中,存在一个不存在于第一个文件名中的组.当然,可以使用字符串拆分等,但我想用一个正则表达式来做这个.第一个文件名的正则表达式如下:

(\w+)_(\w+)_(\w+)_(\d)_(\d)_(\w+)\.(\d+)_(\S+)\.fq\.gz

Run Code Online (Sandbox Code Playgroud)

第二个是:

(\w+)_(\w+)_(\w+)_(\w+)_(\d)_(\d)_(\w+)\.(\d+)_(\S+)\.fq\.gz

Run Code Online (Sandbox Code Playgroud)

当可选组存在时,我希望正则表达式组为空,并且当它存在时包含可选组(这样我以后可以使用它来构造带有\ 4的新文件名).

python regex grouping

sea*_*avi

lucky-day

2
推荐指数

1
解决办法

107
查看次数

处理IPython集群中的各种资源需求

我正在使用基于PBS的集群,并在一组节点上运行IPython并行,每个节点有24或32个内核,内存范围从24G到72G; 这种异质性是由于我们的集群有历史.另外,我发送给IPython集群的作业有不同的资源要求(核心和内存).我正在寻找一种方法来向ipython集群提交工作,这些工作了解他们的资源需求以及可用引擎的资源需求.我想有一种方法可以使用IPython功能优雅地处理这种情况,但我还没有找到它.有关如何进行的任何建议？

python parallel-processing cluster-computing ipython

sea*_*avi

lucky-day

2
推荐指数

1
解决办法

355
查看次数

如何解析和修改 R 表达式（可能使用非标准评估）？

我想将 R 表达式解析为列表，并在最终将其转换为 json 对象之前选择性地修改它的各个方面。举个例子，我正在尝试实现以下目标：

{"op": "=",
      "content": {
          "lhs": "gender",
          "rhs": ["male"]
      }
}

Run Code Online (Sandbox Code Playgroud)

我将从 R 表达式开始，例如：

gender == "male"

Run Code Online (Sandbox Code Playgroud)

我可以用来pryr::ast获取树的文本版本，但我想将其作为列表获取，例如：

op: "=="
  [[1]]: "gender"
  [[2]]: "male"

Run Code Online (Sandbox Code Playgroud)

列表的“格式”细节并不那么重要，只要清楚即可。我的目标只是获得一个可计算且可修改的 R 表达式解析树。

r lazy-evaluation pryr

sea*_*avi

lucky-day

1
推荐指数

1
解决办法

197
查看次数

如何通过加入Spark创建嵌套列？

我想在两个Spark DataFrames（Scala）上执行“联接”，但是我想将第二个DataFrame的“ joined”行作为单个嵌套列插入第一个，而不是类似SQL的联接。这样做的原因最终是使用嵌套结构写回JSON。我知道答案可能已经在Stackoverflow上了，但是一些搜索并没有找到我的答案。

表格1

root
 |-- Insdc: string (nullable = true)
 |-- LastMetaUpdate: string (nullable = true)
 |-- LastUpdate: string (nullable = true)
 |-- Published: string (nullable = true)
 |-- Received: string (nullable = true)
 |-- ReplacedBy: string (nullable = true)
 |-- Status: string (nullable = true)
 |-- Type: string (nullable = true)
 |-- accession: string (nullable = true)
 |-- alias: string (nullable = true)
 |-- attributes: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    | …

Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql

sea*_*avi

2018 01-12

1
推荐指数

1
解决办法

1259
查看次数