我试图在Spark(Pyspark)中创建一个空数据帧.
我使用类似于这里讨论的方法在这里输入链接描述,但它不起作用.
这是我的代码
df = sqlContext.createDataFrame(sc.emptyRDD(), schema)
Run Code Online (Sandbox Code Playgroud)
这是错误
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 404, in createDataFrame
rdd, schema = self._createFromRDD(data, schema, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 285, in _createFromRDD
struct = self._inferSchema(rdd, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 229, in _inferSchema
first = rdd.first()
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1320, in first
raise ValueError("RDD is empty")
ValueError: RDD is empty
Run Code Online (Sandbox Code Playgroud) 我试图使用这一行对数据帧的每一行进行排序,
sapply(df, function(x) sort(x))
Run Code Online (Sandbox Code Playgroud)
但是,列正在排序而不是行.
例如,此数据框
5 10 7 1 5
6 3 9 2 4
4 5 1 3 3
Run Code Online (Sandbox Code Playgroud)
最终是这样的:
4 3 1 1 3
5 5 7 2 4
6 10 9 3 5
Run Code Online (Sandbox Code Playgroud)
我想要这个:
1 5 5 7 10
2 3 4 6 9
1 3 3 4 5
Run Code Online (Sandbox Code Playgroud)
有什么建议?谢谢
我有一个包含多列的数据集,我想进行一次热编码.但是,我不希望对它们中的每一个进行编码,因为所述列与所述项目相关.我想要的是一组使用所有列的虚拟变量.请参阅我的代码以获得更好的解释.
假设我的数据框看起来像这样:
In [103]: dum = pd.DataFrame({'ch1': ['A', 'C', 'A'], 'ch2': ['B', 'G', 'F'], 'ch3': ['C', 'D', 'E']})
In [104]: dum
Out[104]:
ch1 ch2 ch3
0 A B C
1 C G D
2 A F E
Run Code Online (Sandbox Code Playgroud)
如果我执行
pd.get_dummies(dum)
Run Code Online (Sandbox Code Playgroud)
输出将是
ch1_A ch1_C ch2_B ch2_F ch2_G ch3_C ch3_D ch3_E
0 1 0 1 0 0 1 0 0
1 0 1 0 0 1 0 1 0
2 1 0 0 1 0 0 0 1
Run Code Online (Sandbox Code Playgroud)
但是,我想要获得的是这样的:
A B C D …Run Code Online (Sandbox Code Playgroud) 假设我有一个看起来像这样的数据框
ITEM
1 X
2 A
3 B
4 C
5 A
6 F
7 U
8 A
9 B
10 C
11 F
12 U
Run Code Online (Sandbox Code Playgroud)
如何获得最常见的行序列。在这种情况下,最常见的顺序是A,B,C因为它出现在第2至4行和8至10行中。
我已经尝试过该功能rle以及此处找到的一些解决方案,但我并不幸运。我可以有建议,提示或套餐推荐吗?
我想知道如何获得Flask cookie的到期时间.为了设置它,我有以下代码:
resp.set_cookie('id', my_id
expires = current_time + current_time + datetime.timedelta(days=30))
Run Code Online (Sandbox Code Playgroud)
但是,我很难恢复这个价值.
我有兴趣在我的散点图中绘制一个图例.我目前的代码看起来像这样
x=[1,2,3,4]
y=[5,6,7,8]
classes = [2,4,4,2]
plt.scatter(x, y, c=classes, label=classes)
plt.legend()
Run Code Online (Sandbox Code Playgroud)
问题是创建绘图时,图例显示为数组,而不是显示唯一标签及其类.
我知道这是在线程像这样前面所讨论的一个问题一个,但我觉得我的问题是,即使简单的解决方案存在不适合它.此外,在那个例子中,这个人正在指定颜色,但在我的情况下,我事先知道我需要多少颜色.此外,在该示例中,用户正在创建多个散布,每个散射具有唯一的颜色.再说一遍,这不是我想要的.我的目标是使用x,y数组和标签简单地创建绘图.这可能吗?
谢谢.
我试图选择那些至少有4列具有相同值的行.到目前为止,我已经尝试了apply函数,我可以获得任何行或每行匹配的行.
team.composition[apply(team.composition, 1, function(X) any(as.numeric(X) == 1)),]
Run Code Online (Sandbox Code Playgroud)
这是我的表的一个例子
member.1 member.2 member.3 member.4 member.5
1 3 8 5 3
2 3 2 2 2
7 4 8 8 3
1 8 8 8 8
Run Code Online (Sandbox Code Playgroud)
我想要的是返回第二行(2,3,2,2,2)和第四行(1,8,8,8,8).
有什么建议?谢谢
我正在尝试使用Piggybank的库,它给了我一些错误.
这是我的代码:
REGISTER /usr/lib/pig/piggybank.jar;
DEFINE CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage;
a = LOAD 'csvtest/' USING CSVExcelStorage()
Run Code Online (Sandbox Code Playgroud)
而错误:
2015-09-15 00:18:15,480 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 101: file '/usr/lib/pig/piggybank.jar' does not exist.
Run Code Online (Sandbox Code Playgroud)
我按照本指南PiggyBank的说明,已经建立了项目.
我应该移动piggybank.jar到/usr/lib/pig/piggybank.jar?
谢谢.
我正在寻找Scala的哈希字符串的默认哈希函数,但是经过一段时间的搜索后我还没找到它.所以,我想请求任何知道该语言源代码的人的帮助.
这是Java的哈希函数:hashCode
python ×3
r ×3
algorithm ×1
apache-pig ×1
apache-spark ×1
cookies ×1
flask ×1
hash ×1
matplotlib ×1
pandas ×1
plot ×1
pyspark ×1
scala ×1
sequence ×1
sorting ×1