小编Guf*_*oru的帖子

安装SparkR

我有R - 3.2.1的最后一个版本.现在我想在R上安装SparkR.执行后:

> install.packages("SparkR")
Run Code Online (Sandbox Code Playgroud)

我回来了:

Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’
(as ‘lib’ is unspecified)
Warning in install.packages :
  package ‘SparkR’ is not available (for R version 3.2.1)
Run Code Online (Sandbox Code Playgroud)

我也在我的机器上安装了Spark

Spark 1.4.0
Run Code Online (Sandbox Code Playgroud)

我怎么能解决这个问题?

r apache-spark sparkr

46
推荐指数
2
解决办法
3万
查看次数

在Java 8中反转比较器

我有一个ArrayList,并希望按降序排序.我用它来做法java.util.stream.Stream.sorted(Comparator).这是根据Java API的描述:

返回由此流的元素组成的流,并根据提供的内容进行排序Comparator.

这个方法给我一个升序排序.我应该更改哪个参数,只是为了降序?

java sorting comparator java-8 java-stream

44
推荐指数
4
解决办法
7万
查看次数

Xticks by pandas plot,用字符串重命名

我有下一个DF:

A B  C
1 2 'name 1'
2 3 'name 2'
3 5 'name 3'
Run Code Online (Sandbox Code Playgroud)

绘制列A和使用列C作为xticks 的正确顺序是什么?

df['A'].plot(xticks = 'C')
df['A'].plot(xticks = df['C'])
Run Code Online (Sandbox Code Playgroud)

两个都没有工作......例如,无论如何它都有效

df['A'].plot(xticks=[1,2,3])
Run Code Online (Sandbox Code Playgroud)

我应该真的转换为序列吗?我也对问题进行了修改.我收到了下一条错误消息:

ValueError: could not convert string to float: name 3
Run Code Online (Sandbox Code Playgroud)

我有一个字符串列,并希望我的情节使用它作为xticks.

PS

它不会与熊猫情节函数直接相关.我在这里找到了解决方案

plot pandas

21
推荐指数
2
解决办法
6万
查看次数

pandas DF中的重复行

我在Pandas有一个DF,看起来像:

Letters Numbers
A       1
A       3
A       2
A       1
B       1
B       2
B       3
C       2
C       2
Run Code Online (Sandbox Code Playgroud)

我想要计算相似行的数量并将结果保存在第三列中.例如,我正在寻找的输出:

Letters Numbers Events
A       1       2
A       2       1
A       3       1
B       1       1
B       2       1
B       3       1
C       2       2
Run Code Online (Sandbox Code Playgroud)

我要做的就是这里的一个例子.我想出的最好的想法是使用count_values(),但我认为这仅适用于一列.另一个想法是使用duplicated(),无论如何我不想构造任何for-loop.我很确定,存在for循环的Pythonic替代方案.

row count duplicates pandas

10
推荐指数
2
解决办法
2万
查看次数

在同一JVM中检测到多个SparkContext

根据我的上一个问题,我必须为我独特的JVM定义Multiple SparkContext.

我是用下一种方式做的(使用Java):

SparkConf conf = new SparkConf();
conf.setAppName("Spark MultipleContest Test");
conf.set("spark.driver.allowMultipleContexts", "true");
conf.setMaster("local");
Run Code Online (Sandbox Code Playgroud)

之后我创建了下一个源代码:

SparkContext sc = new SparkContext(conf);
SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc);
Run Code Online (Sandbox Code Playgroud)

后来在代码中:

JavaSparkContext ctx = new JavaSparkContext(conf);
JavaRDD<Row> testRDD = ctx.parallelize(AllList);
Run Code Online (Sandbox Code Playgroud)

代码执行后,我得到了下一条错误消息:

16/01/19 15:21:08 WARN SparkContext: Multiple running SparkContexts detected in the same JVM!
org.apache.spark.SparkException: Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently running SparkContext was created at:
org.apache.spark.SparkContext.<init>(SparkContext.scala:81)
test.MLlib.BinarryClassification.main(BinaryClassification.java:41)
    at …
Run Code Online (Sandbox Code Playgroud)

java jvm apache-spark

8
推荐指数
2
解决办法
2万
查看次数

如何使用colormap来为Pandas DataFrames绘制颜色图

pd.DataFrame喜欢这个:

ColumnName
1
1
2
3
1
2
3
1
2
2
Run Code Online (Sandbox Code Playgroud)

我可以用它来绘制它 df['ColumnName'].plot(style='o')

如何为列中的不同值定义不同的颜色(例如,红色表示值1,绿色表示2,橙色表示3).我知道这与它有关colormap,但我如何使用它?

解决方案是DataFrame使用每个值的列构造一个new .但是这些值是排序的,我希望这个序列只是以不同的颜色着色.

python plot colors dataframe pandas

7
推荐指数
1
解决办法
2万
查看次数

DF,熊猫的标准偏差

例如,我有一个pandas DataFrame,它看起来像:

a b c
1 2 3
4 5 6
7 8 9
Run Code Online (Sandbox Code Playgroud)

我想计算此DF中所有值的标准偏差.该函数df.std()让我回到了值pro列.

当然我可以创建下一个代码:

sd = []
sd.append(list(df['a']))
sd.append(list(df['b']))
sd.append(list(df['c']))
numpy.std(sd)
Run Code Online (Sandbox Code Playgroud)

是否可以更简单地使用此代码并为此DF使用一些pandas函数?

python dataframe pandas

6
推荐指数
1
解决办法
6337
查看次数

Python中的协作过滤

我现在使用Graphlab工作.安装这个程序后,我可以运行Collaborative filtering算法.现在我尝试在Python中使用Graphlab.我已经找到了这个出色的工具包.我的问题是,有没有人知道python实现中的Collaborative Filtering?我找不到这个工具,似乎我没有为Python实现...

先感谢您.

python graphlab

5
推荐指数
1
解决办法
5218
查看次数

按SFrame列记录值

请问,有人可以告诉我,如何从SFrame,graphlab(或DataFrame,pandas)列中的每个值中取对数,而不是遍历SFrame列的整个长度?我特别感兴趣的是类似的功能,比如Groupby Aggregators的日志功能.找不到自己......

重要提示:请不要对for-loop列的整个长度进行迭代.我只对特定函数感兴趣,它将所有值转换为整列的日志值.

如果此功能在手册中,我也很抱歉.请给我一个链接......

logarithm dataframe pandas

5
推荐指数
2
解决办法
7198
查看次数

如何在Spark SQL中向现有Dataframe添加新列

我使用DataFrame API.

我有现有的DataFrame和一个List对象(也可以使用Array).如何将此List作为新列添加到现有DataFrame?我应该使用类Column吗?

dataframe java-8 apache-spark-sql spark-dataframe

5
推荐指数
2
解决办法
5976
查看次数