小编MAR*_*ARK的帖子

如何在Interactive PySpark会话中更改SparkContext属性

如何在pyspark交互式shell中更改spark.driver.maxResultSize?我使用了以下代码

from pyspark import SparkConf, SparkContext
conf = (SparkConf()
    .set("spark.driver.maxResultSize", "10g"))
sc.stop()
sc=SparkContext(conf)
Run Code Online (Sandbox Code Playgroud)

但它给了我错误

AttributeError: 'SparkConf' object has no attribute '_get_object_id'
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

11
推荐指数
3
解决办法
2万
查看次数

了解Spark和Scala中的并行性

我对Spark和Scala中的并行性有些困惑.我正在运行一个实验,我必须从磁盘更改/处理某些列中读取许多(csv)文件,然后将其写回磁盘.

在我的实验中,如果我只使用SparkContext的parallelize方法,那么它似乎对性能没有任何影响.然而,简单地使用Scala的并行集合(通过标准杆)可将时间减少到几乎一半.

我正在localhost模式下运行我的实验,其中参数local [2]用于spark上下文.

我的问题是我什么时候应该使用scala的并行集合以及何时使用spark context的并行化?

parallel-processing scala apache-spark

8
推荐指数
2
解决办法
1万
查看次数

在FreeBSD上使用Objective-C开发Web应用程序

我看到Clang 3.0端口包含Objective-C作为开发语言,此外,我还发现这个端口"libobjc2-1.6"(替换Objective-C运行时支持Obj-C 2功能)和"ofc-0.8.1_5" (Objective-C基础类库).

假设我们正在考虑在FreeBSD上使用Objective-C来开发基于Web的应用程序(与使用Java并在Tomcat/Glassfish上运行它相比),我们如何处理它?

Objective-C开发实际上是否适用于FreeBSD(9.0)?

下载和安装的内容(框架/库)是什么?

什么IDE?

正如我所提到的,假设我们打算开发一个Web应用程序,什么是库?/ libraries(我们还看到有"GNUstepWeb" - WebObjects的继承者 - 这是我们应该考虑的Web库吗?这只是一个吗? - 那么其他选择呢?此外,GNUstep/GNUstepWeb可以在Clang 3.0下编译还是使用上面提到的那些Objective-C端口("libobjc2-1.6"和"ofc-0.8.1_5")?这些端口是否相关?

有没有人使用Objective-C在FreeBSD上成功完成Web应用程序项目开发(并部署在FreeBSD上)?

注意:基于Web的应用程序意味着它接受HTTP(RESTful)调用并与数据库进行对话(对于传统和/或NoSQL数据库).

freebsd objective-c clang gnustep

7
推荐指数
1
解决办法
1409
查看次数

如何使用MediametadataRetriever从android中的album/Artist中获取歌曲?

首先,我是一个新手,其次我知道有一个解决方案"如何从Android中的专辑中获取歌曲?" 但这是通过使用游标和MediaStore,我已经使用MediametadataRetriever,它完全不同我没有使用哈希映射和所有.....所以它有点困难....请任何解决方案为此???不使用hashmaps和mediastore ???

这是我用来显示所有歌曲及其艺术家的代码..........

import java.io.File;
import java.io.FileFilter;
import java.io.FilenameFilter;
import java.io.Serializable;
import java.lang.reflect.Array;
import java.util.ArrayList;
import java.util.List;

import android.annotation.SuppressLint;
import android.content.Context;
import android.content.Intent;
import android.graphics.Bitmap;
import android.graphics.BitmapFactory;
import android.media.MediaMetadataRetriever;
import android.media.MediaPlayer;
import android.net.Uri;
import android.os.Bundle;
import android.support.v4.app.Fragment;
import android.support.v4.app.ListFragment;
import android.util.DisplayMetrics;
import android.util.TypedValue;
import android.view.ContextMenu;
import android.view.ContextMenu.ContextMenuInfo;
import android.view.LayoutInflater;
import android.view.Menu;
import android.view.MenuItem;
import android.view.View;
import android.view.ViewGroup;
import android.widget.AdapterView;
import android.widget.AdapterView.AdapterContextMenuInfo;
import android.widget.AdapterView.OnItemClickListener;
import android.widget.ArrayAdapter;
import android.widget.ListView;


public class FragmentSongs extends  Fragment implements Serializable {
    AdapterView.AdapterContextMenuInfo info;

    @Override
    public …
Run Code Online (Sandbox Code Playgroud)

media android

7
推荐指数
1
解决办法
1万
查看次数

Pyspark数据帧将多个列转换为浮点数

我试图将数据帧的多个列从字符串转换为像这样的浮点数

df_temp = sc.parallelize([("1", "2", "3.4555"), ("5.6", "6.7", "7.8")]).toDF(("x", "y", "z"))
df_temp.select(*(float(col(c)).alias(c) for c in df_temp.columns)).show()
Run Code Online (Sandbox Code Playgroud)

但是我收到了错误

select() argument after * must be a sequence, not generator
Run Code Online (Sandbox Code Playgroud)

我无法理解为什么会抛出这个错误

python apache-spark pyspark

7
推荐指数
3
解决办法
1万
查看次数

Seaborn PairGrid:显示每个子图的轴标签

有没有办法可以轻松地为Seaborn对图中的每个子图添加轴标签?这与此问题有关,但我没有添加刻度标签,而是添加轴标签,因为我所拥有的配对图是9*9,我不想每次都向下滚动以检查列名.

我希望这会很容易

for ax in g.axes.flat:
    _ = plt.setp(ax.get_ylabels(), visible=True)
    _ = plt.setp(ax.get_xlabels(), visible=True)
Run Code Online (Sandbox Code Playgroud)

python matplotlib seaborn

6
推荐指数
1
解决办法
4093
查看次数

在 PySpark 中计算加权平均值

我正在尝试计算 pyspark 中的加权平均值,但没有取得很大进展

# Example data
df = sc.parallelize([
    ("a", 7, 1), ("a", 5, 2), ("a", 4, 3),
    ("b", 2, 2), ("b", 5, 4), ("c", 1, -1)
]).toDF(["k", "v1", "v2"])
df.show()

import numpy as np
def weighted_mean(workclass, final_weight):
    return np.average(workclass, weights=final_weight)

weighted_mean_udaf = pyspark.sql.functions.udf(weighted_mean,
    pyspark.sql.types.IntegerType())
Run Code Online (Sandbox Code Playgroud)

但是当我尝试执行这段代码时

df.groupby('k').agg(weighted_mean_udaf(df.v1,df.v2)).show()
Run Code Online (Sandbox Code Playgroud)

我收到错误

u"expression 'pythonUDF' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in first() (or first_value) if you don't care which value you …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

5
推荐指数
1
解决办法
3822
查看次数

以编程方式从另一个笔记本启动jupyter笔记本

是否可以从当前笔记本启动另一个笔记本?我知道如何创建和保存当前笔记本,但是无法从当前笔记本启动另一个笔记本。启动另一个笔记本时%run不起作用

python ipython jupyter

4
推荐指数
1
解决办法
760
查看次数

使用HttpURLConnection流式传输数据

我想使用HttpURLConnection通过HTTP POST打开与服务器的长期连接,并在进入时处理流数据.这适用于Android项目.

我不清楚如何用HttpURLConnection做到这一点.在iOS中,NSURLConnection提供了一种异步模式,当新数据进入并可用于解析时,将调用用户实现的回调.

使用Java中的HttpURLConnection,我看到有一个available()方法返回可以读取的字节数.但是,我不清楚如何编写一个打开连接的流应用程序,并在新的流数据可用于解析DataInputStream时作出反应.

我会很感激一些意见.HttpURLConnection或Java中的替代类是否支持HTTP连接的非阻塞,异步处理?

谢谢

java streaming android httpurlconnection

3
推荐指数
1
解决办法
4325
查看次数

perl中的缓冲区操作

我使用perl recv调用通过网络接收数据包.我能够接收数据包,但数据包的格式化方式是数据包的前两个字节传达有关消息其余部分的信息.我在perl中没有很多编程经验,我不知道如何将接收到的数据包中的前两个字节复制到另一个变量中.

perl network-programming

2
推荐指数
1
解决办法
125
查看次数