小编use*_*768的帖子

如何创建一个空的DataFrame？为什么"ValueError:RDD为空"？

我试图在Spark(Pyspark)中创建一个空数据帧.

我使用类似于这里讨论的方法在这里输入链接描述,但它不起作用.

这是我的代码

df = sqlContext.createDataFrame(sc.emptyRDD(), schema)

Run Code Online (Sandbox Code Playgroud)

这是错误

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 404, in createDataFrame
rdd, schema = self._createFromRDD(data, schema, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 285, in _createFromRDD
struct = self._inferSchema(rdd, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 229, in _inferSchema
first = rdd.first()
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1320, in first
raise ValueError("RDD is empty")
ValueError: RDD is empty

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark

use*_*768

2017 05-23

19
推荐指数

3
解决办法

6万
查看次数

对数据框的每一行进行排序

我试图使用这一行对数据帧的每一行进行排序,

sapply(df, function(x) sort(x))

Run Code Online (Sandbox Code Playgroud)

但是,列正在排序而不是行.

例如,此数据框

5          10          7          1          5
6           3          9          2          4
4           5          1          3          3

Run Code Online (Sandbox Code Playgroud)

最终是这样的:

4           3          1          1          3
5           5          7          2          4
6          10          9          3          5

Run Code Online (Sandbox Code Playgroud)

我想要这个:

1 5 5 7 10
2 3 4 6 9
1 3 3 4 5

Run Code Online (Sandbox Code Playgroud)

有什么建议？谢谢

sorting r

use*_*768

2017 08-23

7
推荐指数

2
解决办法

9785
查看次数

Pandas get_dummies在多个列上

我有一个包含多列的数据集,我想进行一次热编码.但是,我不希望对它们中的每一个进行编码,因为所述列与所述项目相关.我想要的是一组使用所有列的虚拟变量.请参阅我的代码以获得更好的解释.

假设我的数据框看起来像这样:

In [103]: dum = pd.DataFrame({'ch1': ['A', 'C', 'A'], 'ch2': ['B', 'G', 'F'], 'ch3': ['C', 'D', 'E']})

In [104]: dum
Out[104]:
 ch1 ch2 ch3
0   A   B   C
1   C   G   D
2   A   F   E

Run Code Online (Sandbox Code Playgroud)

如果我执行

pd.get_dummies(dum)

Run Code Online (Sandbox Code Playgroud)

输出将是

   ch1_A  ch1_C  ch2_B  ch2_F  ch2_G  ch3_C  ch3_D  ch3_E
 0      1      0      1      0      0      1      0      0
 1      0      1      0      0      1      0      1      0
 2      1      0      0      1      0      0      0      1

Run Code Online (Sandbox Code Playgroud)

但是,我想要获得的是这样的:

 A B C D …

Run Code Online (Sandbox Code Playgroud)

python pandas

use*_*768

lucky-day

6
推荐指数

2
解决办法

2664
查看次数

在R数据框中找到最重复的行序列

假设我有一个看起来像这样的数据框

Run Code Online (Sandbox Code Playgroud)

如何获得最常见的行序列。在这种情况下，最常见的顺序是A,B,C因为它出现在第2至4行和8至10行中。

我已经尝试过该功能rle以及此处找到的一些解决方案，但我并不幸运。我可以有建议，提示或套餐推荐吗？

algorithm r sequence

use*_*768

2019 03-04

6
推荐指数

1
解决办法

209
查看次数

Flask - 如何获得cookie过期时间？

我想知道如何获得Flask cookie的到期时间.为了设置它,我有以下代码:

resp.set_cookie('id', my_id
            expires = current_time + current_time + datetime.timedelta(days=30))

Run Code Online (Sandbox Code Playgroud)

但是,我很难恢复这个价值.

python cookies flask

use*_*768

2016 01-06

5
推荐指数

1
解决办法

1889
查看次数

带有图例的matplotlib散点图

我有兴趣在我的散点图中绘制一个图例.我目前的代码看起来像这样

x=[1,2,3,4]
y=[5,6,7,8]
classes = [2,4,4,2]
plt.scatter(x, y, c=classes, label=classes)
plt.legend()

Run Code Online (Sandbox Code Playgroud)

问题是创建绘图时,图例显示为数组,而不是显示唯一标签及其类.

我知道这是在线程像这样前面所讨论的一个问题一个,但我觉得我的问题是,即使简单的解决方案存在不适合它.此外,在那个例子中,这个人正在指定颜色,但在我的情况下,我事先知道我需要多少颜色.此外,在该示例中,用户正在创建多个散布,每个散射具有唯一的颜色.再说一遍,这不是我想要的.我的目标是使用x,y数组和标签简单地创建绘图.这可能吗？

谢谢.

python plot matplotlib

use*_*768

2017 05-23

5
推荐指数

2
解决办法

1万
查看次数

R - 选择至少X列与条件匹配的行

我试图选择那些至少有4列具有相同值的行.到目前为止,我已经尝试了apply函数,我可以获得任何行或每行匹配的行.

team.composition[apply(team.composition, 1, function(X) any(as.numeric(X) == 1)),]

Run Code Online (Sandbox Code Playgroud)

这是我的表的一个例子

member.1 member.2 member.3 member.4 member.5
   1         3        8       5        3
   2         3        2       2        2
   7         4        8       8        3
   1         8        8       8        8

Run Code Online (Sandbox Code Playgroud)

我想要的是返回第二行(2,3,2,2,2)和第四行(1,8,8,8,8).

有什么建议？谢谢

use*_*768

lucky-day

3
推荐指数

1
解决办法

994
查看次数

猪:如何使用Piggybank的图书馆

我正在尝试使用Piggybank的库,它给了我一些错误.

这是我的代码:

REGISTER /usr/lib/pig/piggybank.jar;
DEFINE CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage; 
a = LOAD 'csvtest/' USING CSVExcelStorage()

Run Code Online (Sandbox Code Playgroud)

而错误:

2015-09-15 00:18:15,480 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 101: file '/usr/lib/pig/piggybank.jar' does not exist.

Run Code Online (Sandbox Code Playgroud)

我按照本指南PiggyBank的说明,已经建立了项目.

我应该移动piggybank.jar到/usr/lib/pig/piggybank.jar？

谢谢.

apache-pig

use*_*768

2015 09-15

1
推荐指数

1
解决办法

3663
查看次数

字符串的Scala散列函数是什么？

我正在寻找Scala的哈希字符串的默认哈希函数,但是经过一段时间的搜索后我还没找到它.所以,我想请求任何知道该语言源代码的人的帮助.

这是Java的哈希函数:hashCode

hash scala

use*_*768

lucky-day

0
推荐指数

1
解决办法

5455
查看次数

标签统计

python ×3

r ×3

algorithm ×1

apache-pig ×1

apache-spark ×1

cookies ×1

flask ×1

hash ×1

matplotlib ×1

pandas ×1

plot ×1

pyspark ×1

scala ×1

sequence ×1

sorting ×1

标签 统计

小编use_768的帖子

标签统计