小编MAR*_*ARK的帖子

如何在Interactive PySpark会话中更改SparkContext属性

如何在pyspark交互式shell中更改spark.driver.maxResultSize？我使用了以下代码

from pyspark import SparkConf, SparkContext
conf = (SparkConf()
    .set("spark.driver.maxResultSize", "10g"))
sc.stop()
sc=SparkContext(conf)

Run Code Online (Sandbox Code Playgroud)

但它给了我错误

AttributeError: 'SparkConf' object has no attribute '_get_object_id'

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

MAR*_*ARK

lucky-day

11
推荐指数

3
解决办法

2万
查看次数

了解Spark和Scala中的并行性

我对Spark和Scala中的并行性有些困惑.我正在运行一个实验,我必须从磁盘更改/处理某些列中读取许多(csv)文件,然后将其写回磁盘.

在我的实验中,如果我只使用SparkContext的parallelize方法,那么它似乎对性能没有任何影响.然而,简单地使用Scala的并行集合(通过标准杆)可将时间减少到几乎一半.

我正在localhost模式下运行我的实验,其中参数local [2]用于spark上下文.

我的问题是我什么时候应该使用scala的并行集合以及何时使用spark context的并行化？

parallel-processing scala apache-spark

MAR*_*ARK

lucky-day

8
推荐指数

2
解决办法

1万
查看次数

在FreeBSD上使用Objective-C开发Web应用程序

我看到Clang 3.0端口包含Objective-C作为开发语言,此外,我还发现这个端口"libobjc2-1.6"(替换Objective-C运行时支持Obj-C 2功能)和"ofc-0.8.1_5" (Objective-C基础类库).

假设我们正在考虑在FreeBSD上使用Objective-C来开发基于Web的应用程序(与使用Java并在Tomcat/Glassfish上运行它相比),我们如何处理它？

Objective-C开发实际上是否适用于FreeBSD(9.0)？

下载和安装的内容(框架/库)是什么？

什么IDE？

正如我所提到的,假设我们打算开发一个Web应用程序,什么是库？/ libraries(我们还看到有"GNUstepWeb" - WebObjects的继承者 - 这是我们应该考虑的Web库吗？这只是一个吗？ - 那么其他选择呢？此外,GNUstep/GNUstepWeb可以在Clang 3.0下编译还是使用上面提到的那些Objective-C端口("libobjc2-1.6"和"ofc-0.8.1_5")？这些端口是否相关？

有没有人使用Objective-C在FreeBSD上成功完成Web应用程序项目开发(并部署在FreeBSD上)？

注意:基于Web的应用程序意味着它接受HTTP(RESTful)调用并与数据库进行对话(对于传统和/或NoSQL数据库).

freebsd objective-c clang gnustep

ike*_*8me

2012 05-02

7
推荐指数

1
解决办法

1409
查看次数

如何使用MediametadataRetriever从android中的album/Artist中获取歌曲？

首先,我是一个新手,其次我知道有一个解决方案"如何从Android中的专辑中获取歌曲？" 但这是通过使用游标和MediaStore,我已经使用MediametadataRetriever,它完全不同我没有使用哈希映射和所有.....所以它有点困难....请任何解决方案为此???不使用hashmaps和mediastore ???

这是我用来显示所有歌曲及其艺术家的代码..........

import java.io.File;
import java.io.FileFilter;
import java.io.FilenameFilter;
import java.io.Serializable;
import java.lang.reflect.Array;
import java.util.ArrayList;
import java.util.List;

import android.annotation.SuppressLint;
import android.content.Context;
import android.content.Intent;
import android.graphics.Bitmap;
import android.graphics.BitmapFactory;
import android.media.MediaMetadataRetriever;
import android.media.MediaPlayer;
import android.net.Uri;
import android.os.Bundle;
import android.support.v4.app.Fragment;
import android.support.v4.app.ListFragment;
import android.util.DisplayMetrics;
import android.util.TypedValue;
import android.view.ContextMenu;
import android.view.ContextMenu.ContextMenuInfo;
import android.view.LayoutInflater;
import android.view.Menu;
import android.view.MenuItem;
import android.view.View;
import android.view.ViewGroup;
import android.widget.AdapterView;
import android.widget.AdapterView.AdapterContextMenuInfo;
import android.widget.AdapterView.OnItemClickListener;
import android.widget.ArrayAdapter;
import android.widget.ListView;


public class FragmentSongs extends  Fragment implements Serializable {
    AdapterView.AdapterContextMenuInfo info;

    @Override
    public …

Run Code Online (Sandbox Code Playgroud)

media android

Ank*_*ava

2013 08-21

7
推荐指数

1
解决办法

1万
查看次数

Pyspark数据帧将多个列转换为浮点数

我试图将数据帧的多个列从字符串转换为像这样的浮点数

df_temp = sc.parallelize([("1", "2", "3.4555"), ("5.6", "6.7", "7.8")]).toDF(("x", "y", "z"))
df_temp.select(*(float(col(c)).alias(c) for c in df_temp.columns)).show()

Run Code Online (Sandbox Code Playgroud)

但是我收到了错误

select() argument after * must be a sequence, not generator

Run Code Online (Sandbox Code Playgroud)

我无法理解为什么会抛出这个错误

python apache-spark pyspark

MAR*_*ARK

2016 11-08

7
推荐指数

3
解决办法

1万
查看次数

Seaborn PairGrid:显示每个子图的轴标签

有没有办法可以轻松地为Seaborn对图中的每个子图添加轴标签？这与此问题有关,但我没有添加刻度标签,而是添加轴标签,因为我所拥有的配对图是9*9,我不想每次都向下滚动以检查列名.

我希望这会很容易

for ax in g.axes.flat:
    _ = plt.setp(ax.get_ylabels(), visible=True)
    _ = plt.setp(ax.get_xlabels(), visible=True)

Run Code Online (Sandbox Code Playgroud)

python matplotlib seaborn

MAR*_*ARK

2017 05-23

6
推荐指数

1
解决办法

4093
查看次数

在 PySpark 中计算加权平均值

我正在尝试计算 pyspark 中的加权平均值，但没有取得很大进展

# Example data
df = sc.parallelize([
    ("a", 7, 1), ("a", 5, 2), ("a", 4, 3),
    ("b", 2, 2), ("b", 5, 4), ("c", 1, -1)
]).toDF(["k", "v1", "v2"])
df.show()

import numpy as np
def weighted_mean(workclass, final_weight):
    return np.average(workclass, weights=final_weight)

weighted_mean_udaf = pyspark.sql.functions.udf(weighted_mean,
    pyspark.sql.types.IntegerType())

Run Code Online (Sandbox Code Playgroud)

但是当我尝试执行这段代码时

df.groupby('k').agg(weighted_mean_udaf(df.v1,df.v2)).show()

Run Code Online (Sandbox Code Playgroud)

我收到错误

u"expression 'pythonUDF' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in first() (or first_value) if you don't care which value you …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

MAR*_*ARK

2016 08-09

5
推荐指数

1
解决办法

3822
查看次数