小编Mic*_*son的帖子

如何充分利用集群中的所有Spark节点?

我已经在Spark的独立模式下启动了一个带有ec2脚本的10节点集群.我正在从PySpark shell中访问s3存储桶中的数据,但是当我在RDD上执行transormations时,只使用了一个节点.例如,下面将读取CommonCorpus的数据:

bucket = ("s3n://@aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2014-23/"
          "/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10"
          "-180-212-248.ec2.internal.warc.gz")

data = sc.textFile(bucket)
data.count()
Run Code Online (Sandbox Code Playgroud)

当我运行它时,我的10个从属中只有一个处理数据.我知道这一点,因为从Spark Web控制台查看时,只有一个从站(213)具有该活动的任何日志.当我在Ganglia中查看活动时,同一节点(213)是唯一一个在运行活动时内存使用量增加的奴隶.在此输入图像描述

此外,当我使用仅有一个slave的ec2集群运行相同的脚本时,我具有完全相同的性能.我正在使用Spark 1.1.0,非常感谢任何帮助或建议.

amazon-ec2 apache-spark pyspark

14
推荐指数
1
解决办法
2564
查看次数

生成在 Flask 中使用的签名会话 cookie 值

我正在使用另一个需要将项目注入会话的 Flask 服务器代理 Flask 服务器。

两台服务器具有相同的密钥,因此加密签名将相同。使用 Flask 和会话时,http 响应包含一个带有 的 Set-Cookie 标头session=text,其中文本是使用您的密钥签名的会话对象的编码 JSON 字符串。

本质上,我需要能够重新创建这个字符串,但我找不到这样做的接口。

python cookies session flask

7
推荐指数
1
解决办法
4499
查看次数

与子进程通信,而无需等待子进程在Windows上终止

我有一个简单的echoprocess.py:

import sys

while True:
    data = sys.stdin.read()
    sys.stdout.write("Here is the data: " + str(data))
Run Code Online (Sandbox Code Playgroud)

还有一个parentprocess.py

from subprocess import Popen, PIPE

proc = Popen(["C:/python27/python.exe", "echoprocess.py"],
             stdin = PIPE,
             sdtout = PIPE)

proc.stdin.write("hello")
print proc.stdout.read()
Run Code Online (Sandbox Code Playgroud)

这只是挂起,直到echoprocess.py终止。我想多次与此子进程通信,而不必再次重新启动它。Windows上的Python子进程模块可以进行这种进程间通信吗?

python stdin subprocess stdout readline

6
推荐指数
1
解决办法
4695
查看次数

使用Python在Threaded COM对象中泄漏内存

我正在一个线程中创建一个COM客户端,并使用此客户端执行多个操作.每个线程都是从使用Python socketserver模块的服务器生成的,该模块具有内置的线程支持.

当我加载和使用此COM对象时,python.exe预计会占用内存.使用10个并发线程时,内存使用量的峰值约为500Mb.但是,当操作完成并且COM对象显然已释放时,该进程使用的额外内存比以前多50Mb.如果我然后使用相同的服务器生成10个额外的线程,那么在关闭这些COM对象之后python.exe将使用13Mb.最终每10个额外的并发线程在完成后增加大约6Mb.当我结束整个python.exe进程时,所有内存都被释放.

我简化了以下代码来模仿socketserver如何使用threadding,问题完全相同.

import win32com.client
import threading
import pythoncom

def CreateTom():
    pythoncom.CoInitialize()
    tom = win32com.client.Dispatch("TOM.Document")
    tom.Dataset.Load("FileName")
    tom.Clear()
    pythoncom.CoUninitialize()

for i in range(50):
    t = threading.Thread(target = CreateTom)
    t.daemon = False
    t.start()
Run Code Online (Sandbox Code Playgroud)

我知道我不太可能在特定的COM库周围获得任何支持(它是市场研究中使用的IBM产品,称为TablesObjectModel).但是我想知道是否有任何东西,我可以做的其他事情来释放这个记忆.我读过有关COM中的公寓,但听起来像pythoncom.CoInitialize应该为我照顾这个.任何帮助,将不胜感激.

python com multithreading memory-leaks win32com

3
推荐指数
1
解决办法
1613
查看次数

将 <span> 置于两个 <button> 之间

我正在使用 bootstrap v3 并尝试将 a<span class="badge">1</span>置于两个按钮之间,其中一个按钮使用该类pull-right

确切的 html 如下所示:

<button type="button" class="btn btn-success">Decient</button>
<span class="badge">10</span>
<button type="button" class="pull-right btn btn-danger">Garbage</button>
Run Code Online (Sandbox Code Playgroud)

然而,这会导致以下结果:

在此输入图像描述

我希望以 10 为中心,但没有成功。我已经尝试过pagination-centeredtext-center自定义 CSS 没有效果。另外为了提供一些额外的上下文,它位于captiona 的 div中thumbnail

以下提供了我的情况的基本场景:http://jsfiddle.net/vvA78/1/

html css centering twitter-bootstrap twitter-bootstrap-3

1
推荐指数
1
解决办法
2223
查看次数