小编poi*_*rez的帖子

../hadoop/spark-install/bin/spark-submit main.py --py-files /home/poiuytrez/naive.py,/home/poiuytrez/processing.py,/home/poiuytrez/settings.py  --master spark://spark-m:7077

Run Code Online (Sandbox Code Playgroud)

我收到一个错误:

15/03/13 15:54:24 INFO TaskSetManager: Lost task 6.3 in stage 413.0 (TID 5817) on executor spark-w-3.c.databerries.internal: org.apache.spark.api.python.PythonException (Traceback (most recent call last):   File "/home/hadoop/spark-install/python/pyspark/worker.py", line 90, in main
    command = pickleSer._read_with_length(infile)   File "/home/hadoop/spark-install/python/pyspark/serializers.py", line 151, in _read_with_length
    return self.loads(obj)   File "/home/hadoop/spark-install/python/pyspark/serializers.py", line 396, in loads
    return cPickle.loads(obj) ImportError: No module named naive

Run Code Online (Sandbox Code Playgroud)

这很奇怪,因为我没有序列化任何东西.naive.py也可以在同一路径的每台机器上使用.

对可能发生的事情的任何见解？问题不会发生在我的笔记本电脑上.

PS:我使用的是Spark 1.2.0.

python apache-spark

poi*_*rez

lucky-day

8
推荐指数

1
解决办法

9976
查看次数

有没有办法在命令中为kubectl特定google云平台项目？

是否有类似:kubectl get pods --project = PROJECT_ID

我不想修改我的默认gcloud配置来在我的登台和生产环境之间切换.

kubernetes

poi*_*rez

lucky-day

8
推荐指数

2
解决办法

6196
查看次数

Spark中的toDebugString在python中并不好用

这是我在scala中使用toDebugString时得到的结果:

scala> val a  = sc.parallelize(Array(1,2,3)).distinct
a: org.apache.spark.rdd.RDD[Int] = MappedRDD[3] at distinct at <console>:12

scala> a.toDebugString
res0: String = 
(4) MappedRDD[3] at distinct at <console>:12
 |  ShuffledRDD[2] at distinct at <console>:12
 +-(4) MappedRDD[1] at distinct at <console>:12
    |  ParallelCollectionRDD[0] at parallelize at <console>:12

Run Code Online (Sandbox Code Playgroud)

这在python中是等价的:

>>> a = sc.parallelize([1,2,3]).distinct()
>>> a.toDebugString()
'(4) PythonRDD[6] at RDD at PythonRDD.scala:43\n |  MappedRDD[5] at values at NativeMethodAccessorImpl.java:-2\n |  ShuffledRDD[4] at partitionBy at NativeMethodAccessorImpl.java:-2\n +-(4) PairwiseRDD[3] at RDD at PythonRDD.scala:261\n …

Run Code Online (Sandbox Code Playgroud)

python scala apache-spark

poi*_*rez

lucky-day

7
推荐指数

1
解决办法

7839
查看次数

如何在redis容器中恢复redis备份？

我有一个redis容器.我想备份它并在另一台redis容器中的另一台机器上重新导入备份.

我按照这些步骤:

# Create the original redis container
docker run --name redis -d redis:3.0.3 redis-server --appendonly yes

# add a key inside it for the tests
docker run -it --link redis:redis --rm redis sh -c 'exec redis-cli -h "$REDIS_PORT_6379_TCP_ADDR" -p "$REDIS_PORT_6379_TCP_PORT"'
> SET foo bar
OK

# backup this container
docker run --volumes-from redis -v $(pwd):/backup ubuntu tar cvf /backup/backup.tar /data

# I now have a backup.tar file on my system and I transfer it on another machine
# Recreate …

Run Code Online (Sandbox Code Playgroud)

redis docker

poi*_*rez

lucky-day

7
推荐指数

1
解决办法

2717
查看次数

检查Kafka中的所有滞后

我想确保即使我的消费者宕机，我也不会在 Kafka 中丢失任何消息。

如果我有一个小时的日志滚动，如果我的消费者停机超过一小时，我将丢失未被消费的消息。

有没有办法在 Kafka 0.10.2.0 中轻松检查所有分区的所有滞后？

我发现很多方法都没有奏效。

apache-kafka

poi*_*rez

lucky-day

7
推荐指数

1
解决办法

1万
查看次数

在 PyTest 上的两个测试之间重置全局变量

我对使用和修改全局变量的函数进行了测试。我想确保我的全局变量在我的测试之间重置。有什么技巧可以做到这一点吗？

主要.py:

y = 0


def inc(x):
    # side effect
    global y
    y = y + 1
    return x + y + 1

Run Code Online (Sandbox Code Playgroud)

测试_main.py：

from main import inc


def test_answer():
    assert inc(3) == 5


def test_answer_again():
    assert inc(3) == 5

Run Code Online (Sandbox Code Playgroud)

_________________________________________________________________________________________ test_answer_again __________________________________________________________________________________________

    def test_answer_again():
>       assert inc(3) == 5
E       assert 6 == 5
E        +  where 6 = inc(3)

test_main.py:8: AssertionError
====================================================================================== short test summary info =======================================================================================
FAILED test_main.py::test_answer_again - assert 6 == 5
==================================================================================== 1 failed, 1 …

Run Code Online (Sandbox Code Playgroud)

python pytest

poi*_*rez

lucky-day

7
推荐指数

1
解决办法

2348
查看次数

在python中保存Apache Spark mllib模型

我正在尝试将拟合的模型保存到Spark中的文件中.我有一个Spark集群,它训练一个RandomForest模型.我想在另一台机器上保存并重复使用合适的模型.我在网上看了一些建议做java序列化的帖子.我在python中做了相同的操作,但它不起作用.诀窍是什么？

model = RandomForest.trainRegressor(trainingData, categoricalFeaturesInfo={},
                                    numTrees=nb_tree,featureSubsetStrategy="auto",
                                    impurity='variance', maxDepth=depth)
output = open('model.ml', 'wb')
pickle.dump(model,output)

Run Code Online (Sandbox Code Playgroud)

我收到此错误: