小编use*_*768的帖子

如何创建一个空的DataFrame?为什么"ValueError:RDD为空"?

我试图在Spark(Pyspark)中创建一个空数据帧.

我使用类似于这里讨论的方法在这里输入链接描述,但它不起作用.

这是我的代码

df = sqlContext.createDataFrame(sc.emptyRDD(), schema)
Run Code Online (Sandbox Code Playgroud)

这是错误

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 404, in createDataFrame
rdd, schema = self._createFromRDD(data, schema, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 285, in _createFromRDD
struct = self._inferSchema(rdd, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 229, in _inferSchema
first = rdd.first()
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1320, in first
raise ValueError("RDD is empty")
ValueError: RDD is empty
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark

19
推荐指数
3
解决办法
6万
查看次数

对数据框的每一行进行排序

我试图使用这一行对数据帧的每一行进行排序,

sapply(df, function(x) sort(x))
Run Code Online (Sandbox Code Playgroud)

但是,列正在排序而不是行.

例如,此数据框

5          10          7          1          5
6           3          9          2          4
4           5          1          3          3
Run Code Online (Sandbox Code Playgroud)

最终是这样的:

4           3          1          1          3
5           5          7          2          4
6          10          9          3          5
Run Code Online (Sandbox Code Playgroud)

我想要这个:

1 5 5 7 10
2 3 4 6 9
1 3 3 4 5
Run Code Online (Sandbox Code Playgroud)

有什么建议?谢谢

sorting r

7
推荐指数
2
解决办法
9785
查看次数

Pandas get_dummies在多个列上

我有一个包含多列的数据集,我想进行一次热编码.但是,我不希望对它们中的每一个进行编码,因为所述列与所述项目相关.我想要的是一组使用所有列的虚拟变量.请参阅我的代码以获得更好的解释.

假设我的数据框看起来像这样:

In [103]: dum = pd.DataFrame({'ch1': ['A', 'C', 'A'], 'ch2': ['B', 'G', 'F'], 'ch3': ['C', 'D', 'E']})

In [104]: dum
Out[104]:
 ch1 ch2 ch3
0   A   B   C
1   C   G   D
2   A   F   E
Run Code Online (Sandbox Code Playgroud)

如果我执行

pd.get_dummies(dum)
Run Code Online (Sandbox Code Playgroud)

输出将是

   ch1_A  ch1_C  ch2_B  ch2_F  ch2_G  ch3_C  ch3_D  ch3_E
 0      1      0      1      0      0      1      0      0
 1      0      1      0      0      1      0      1      0
 2      1      0      0      1      0      0      0      1
Run Code Online (Sandbox Code Playgroud)

但是,我想要获得的是这样的:

 A B C D …
Run Code Online (Sandbox Code Playgroud)

python pandas

6
推荐指数
2
解决办法
2664
查看次数

在R数据框中找到最重复的行序列

假设我有一个看起来像这样的数据框

    ITEM
  1  X
  2  A
  3  B
  4  C
  5  A
  6  F
  7  U
  8  A
  9  B
 10  C
 11  F
 12  U
Run Code Online (Sandbox Code Playgroud)

如何获得最常见的行序列。在这种情况下,最常见的顺序是A,B,C因为它出现在第2至4行和8至10行中。

我已经尝试过该功能rle以及此处找到的一些解决方案,但我并不幸运。我可以有建议,提示或套餐推荐吗?

algorithm r sequence

6
推荐指数
1
解决办法
209
查看次数

Flask - 如何获得cookie过期时间?

我想知道如何获得Flask cookie的到期时间.为了设置它,我有以下代码:

resp.set_cookie('id', my_id
            expires = current_time + current_time + datetime.timedelta(days=30))
Run Code Online (Sandbox Code Playgroud)

但是,我很难恢复这个价值.

python cookies flask

5
推荐指数
1
解决办法
1889
查看次数

带有图例的matplotlib散点图

我有兴趣在我的散点图中绘制一个图例.我目前的代码看起来像这样

x=[1,2,3,4]
y=[5,6,7,8]
classes = [2,4,4,2]
plt.scatter(x, y, c=classes, label=classes)
plt.legend()
Run Code Online (Sandbox Code Playgroud)

问题是创建绘图时,图例显示为数组,而不是显示唯一标签及其类.

这是情节的样子

我知道这是在线程像这样前面所讨论的一个问题一个,但我觉得我的问题是,即使简单的解决方案存在不适合它.此外,在那个例子中,这个人正在指定颜色,但在我的情况下,我事先知道我需要多少颜色.此外,在示例中,用户正在创建多个散布,每个散射具有唯一的颜色.再说一遍,这不是我想要的.我的目标是使用x,y数组和标签简单地创建绘图.这可能吗?

谢谢.

python plot matplotlib

5
推荐指数
2
解决办法
1万
查看次数

R - 选择至少X列与条件匹配的行

我试图选择那些至少有4列具有相同值的行.到目前为止,我已经尝试了apply函数,我可以获得任何行或每行匹配的行.

team.composition[apply(team.composition, 1, function(X) any(as.numeric(X) == 1)),]
Run Code Online (Sandbox Code Playgroud)

这是我的表的一个例子

member.1 member.2 member.3 member.4 member.5
   1         3        8       5        3
   2         3        2       2        2
   7         4        8       8        3
   1         8        8       8        8
Run Code Online (Sandbox Code Playgroud)

我想要的是返回第二行(2,3,2,2,2)和第四行(1,8,8,8,8).

有什么建议?谢谢

r

3
推荐指数
1
解决办法
994
查看次数

猪:如何使用Piggybank的图书馆

我正在尝试使用Piggybank的库,它给了我一些错误.

这是我的代码:

REGISTER /usr/lib/pig/piggybank.jar;
DEFINE CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage; 
a = LOAD 'csvtest/' USING CSVExcelStorage()
Run Code Online (Sandbox Code Playgroud)

而错误:

2015-09-15 00:18:15,480 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 101: file '/usr/lib/pig/piggybank.jar' does not exist.
Run Code Online (Sandbox Code Playgroud)

我按照本指南PiggyBank的说明,已经建立了项目.

我应该移动piggybank.jar/usr/lib/pig/piggybank.jar

谢谢.

apache-pig

1
推荐指数
1
解决办法
3663
查看次数

字符串的Scala散列函数是什么?

我正在寻找Scala的哈希字符串的默认哈希函数,但是经过一段时间的搜索后我还没找到它.所以,我想请求任何知道该语言源代码的人的帮助.

这是Java的哈希函数:hashCode

hash scala

0
推荐指数
1
解决办法
5455
查看次数