我有R - 3.2.1的最后一个版本.现在我想在R上安装SparkR.执行后:
> install.packages("SparkR")
Run Code Online (Sandbox Code Playgroud)
我回来了:
Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’
(as ‘lib’ is unspecified)
Warning in install.packages :
package ‘SparkR’ is not available (for R version 3.2.1)
Run Code Online (Sandbox Code Playgroud)
我也在我的机器上安装了Spark
Spark 1.4.0
Run Code Online (Sandbox Code Playgroud)
我怎么能解决这个问题?
我有一个ArrayList,并希望按降序排序.我用它来做法java.util.stream.Stream.sorted(Comparator).这是根据Java API的描述:
返回由此流的元素组成的流,并根据提供的内容进行排序
Comparator.
这个方法给我一个升序排序.我应该更改哪个参数,只是为了降序?
我有下一个DF:
A B C
1 2 'name 1'
2 3 'name 2'
3 5 'name 3'
Run Code Online (Sandbox Code Playgroud)
绘制列A和使用列C作为xticks 的正确顺序是什么?
df['A'].plot(xticks = 'C')
df['A'].plot(xticks = df['C'])
Run Code Online (Sandbox Code Playgroud)
两个都没有工作......例如,无论如何它都有效
df['A'].plot(xticks=[1,2,3])
Run Code Online (Sandbox Code Playgroud)
我应该真的转换为序列吗?我也对问题进行了修改.我收到了下一条错误消息:
ValueError: could not convert string to float: name 3
Run Code Online (Sandbox Code Playgroud)
我有一个字符串列,并希望我的情节使用它作为xticks.
PS
它不会与熊猫情节函数直接相关.我在这里找到了解决方案
我在Pandas有一个DF,看起来像:
Letters Numbers
A 1
A 3
A 2
A 1
B 1
B 2
B 3
C 2
C 2
Run Code Online (Sandbox Code Playgroud)
我想要计算相似行的数量并将结果保存在第三列中.例如,我正在寻找的输出:
Letters Numbers Events
A 1 2
A 2 1
A 3 1
B 1 1
B 2 1
B 3 1
C 2 2
Run Code Online (Sandbox Code Playgroud)
我要做的就是这里的一个例子.我想出的最好的想法是使用count_values(),但我认为这仅适用于一列.另一个想法是使用duplicated(),无论如何我不想构造任何for-loop.我很确定,存在for循环的Pythonic替代方案.
根据我的上一个问题,我必须为我独特的JVM定义Multiple SparkContext.
我是用下一种方式做的(使用Java):
SparkConf conf = new SparkConf();
conf.setAppName("Spark MultipleContest Test");
conf.set("spark.driver.allowMultipleContexts", "true");
conf.setMaster("local");
Run Code Online (Sandbox Code Playgroud)
之后我创建了下一个源代码:
SparkContext sc = new SparkContext(conf);
SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc);
Run Code Online (Sandbox Code Playgroud)
后来在代码中:
JavaSparkContext ctx = new JavaSparkContext(conf);
JavaRDD<Row> testRDD = ctx.parallelize(AllList);
Run Code Online (Sandbox Code Playgroud)
代码执行后,我得到了下一条错误消息:
16/01/19 15:21:08 WARN SparkContext: Multiple running SparkContexts detected in the same JVM!
org.apache.spark.SparkException: Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true. The currently running SparkContext was created at:
org.apache.spark.SparkContext.<init>(SparkContext.scala:81)
test.MLlib.BinarryClassification.main(BinaryClassification.java:41)
at …Run Code Online (Sandbox Code Playgroud) 我pd.DataFrame喜欢这个:
ColumnName
1
1
2
3
1
2
3
1
2
2
Run Code Online (Sandbox Code Playgroud)
我可以用它来绘制它 df['ColumnName'].plot(style='o')
如何为列中的不同值定义不同的颜色(例如,红色表示值1,绿色表示2,橙色表示3).我知道这与它有关colormap,但我如何使用它?
解决方案是DataFrame使用每个值的列构造一个new .但是这些值是排序的,我希望这个序列只是以不同的颜色着色.
例如,我有一个pandas DataFrame,它看起来像:
a b c
1 2 3
4 5 6
7 8 9
Run Code Online (Sandbox Code Playgroud)
我想计算此DF中所有值的标准偏差.该函数df.std()让我回到了值pro列.
当然我可以创建下一个代码:
sd = []
sd.append(list(df['a']))
sd.append(list(df['b']))
sd.append(list(df['c']))
numpy.std(sd)
Run Code Online (Sandbox Code Playgroud)
是否可以更简单地使用此代码并为此DF使用一些pandas函数?
我现在使用Graphlab工作.安装这个程序后,我可以运行Collaborative filtering算法.现在我尝试在Python中使用Graphlab.我已经找到了这个出色的工具包.我的问题是,有没有人知道python实现中的Collaborative Filtering?我找不到这个工具,似乎我没有为Python实现...
先感谢您.
请问,有人可以告诉我,如何从SFrame,graphlab(或DataFrame,pandas)列中的每个值中取对数,而不是遍历SFrame列的整个长度?我特别感兴趣的是类似的功能,比如Groupby Aggregators的日志功能.找不到自己......
重要提示:请不要对for-loop列的整个长度进行迭代.我只对特定函数感兴趣,它将所有值转换为整列的日志值.
如果此功能在手册中,我也很抱歉.请给我一个链接......
我使用DataFrame API.
我有现有的DataFrame和一个List对象(也可以使用Array).如何将此List作为新列添加到现有DataFrame?我应该使用类Column吗?
pandas ×5
dataframe ×4
python ×3
apache-spark ×2
java ×2
java-8 ×2
plot ×2
colors ×1
comparator ×1
count ×1
duplicates ×1
graphlab ×1
java-stream ×1
jvm ×1
logarithm ×1
r ×1
row ×1
sorting ×1
sparkr ×1