我在本地pyspark 1.4中乱搞数据帧,并且在使用drop duplicates方法时遇到问题.继续返回错误"AttributeError:'list'对象没有属性'dropDuplicates'".不太清楚为什么我似乎遵循最新文档中的语法.好像我错过了该功能的导入或其他东西.
#loading the CSV file into an RDD in order to start working with the data
rdd1 = sc.textFile("C:\myfilename.csv").map(lambda line: (line.split(",")[0], line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect()
#loading the RDD object into a dataframe and assigning column names
df1 = sqlContext.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4']).collect()
#dropping duplicates from the dataframe
df1.dropDuplicates().show()
Run Code Online (Sandbox Code Playgroud) 我正在进行用户登录,并且遇到了用户创建部分的问题.我的问题是我正在尝试检查文本文件的输入用户名,看看该用户名是否已经存在.我似乎无法将输入用户名与我引入的数组进行比较.我尝试了两种不同的方法来实现这一点.一个使用数组,另一个使用我在网上阅读的东西,我不太明白.任何帮助或解释将不胜感激.
这是我尝试使用数组来比较 http://codepad.org/G7xmsf3z
这是我的第二次尝试 http://codepad.org/SbeqmdbG
我有一个数据框,我试图使用 pyspark 1.4 将其另存为 JSON 文件,但它似乎不起作用。当我给它提供目录的路径时,它会返回一个错误,指出它已经存在。我基于文档的假设是它会在您提供的路径中保存一个 json 文件。
df.write.json("C:\Users\username")
Run Code Online (Sandbox Code Playgroud)
指定具有名称的目录不会产生任何文件并给出“java.io.IOException: Mkdirs failed to create file:/C:Users/username/test/_temporary/....etc”的错误。但是它会创建一个名为 test 的目录,其中包含几个带有空白 crc 文件的子目录。
df.write.json("C:\Users\username\test")
Run Code Online (Sandbox Code Playgroud)
并添加 JSON 的文件扩展名,产生相同的错误
df.write.json("C:\Users\username\test.JSON")
Run Code Online (Sandbox Code Playgroud) 我正在测试火花十进制类型的货币量度,并在设置刻度和精度时看到一些奇怪的精度结果,如下所示。我想确保在计算过程中不会丢失任何数据,但是下面的示例不能确保这一点。谁能告诉我为什么Spark sql会发生这种情况?当前版本为2.3.0
val sql = """select cast(cast(3 as decimal(38,14)) / cast(9 as decimal(38,14)) as decimal(38,14)) val"""
spark.sql(sql).show
Run Code Online (Sandbox Code Playgroud)
这返回
+----------------+
| val|
+----------------+
|0.33333300000000|
+----------------+
Run Code Online (Sandbox Code Playgroud) 我一直在试图从Web表单中保存数据并且无法获得返回的标准验证.认为这是某种异常问题,我只是没有得到.使用parse.com api保存对象是基于backbone.js构建的,因此它非常相似.出于某种原因,我可以将数据保存到我的数据库没有问题,但是当我尝试引入某种验证时,它会搞砸.寻找有关如何从服务器正确获取成功验证的一些信息.现在它每次都会出现错误,并且似乎会使服务器无法保存数据.
以下是在提交时执行的代码.我已经展示了我尝试保存数据的三种方法.
$("#f1").submit(function(event) {
var NewRes = Parse.Object.extend("Customer");
var newRes = new NewRes();
newRes.set("FirstName", "Ricky");
newRes.set("LastName", "Bobby");
//works every time, but I have no return validating it
newRes.save();
//saving with callback options, doesn't save anything to the database and hits error message
newRes.save(null, {
wait: true,
success: function(newRes, response) {
alert("success" + response.message);
},
error: function(newRes, response) {
alert("errorcode: " + response.code + " Message: " + response.message);
}
});
//saving with promises, doesn't save anything and hits error …Run Code Online (Sandbox Code Playgroud) 我有一个python脚本,当前访问返回JSON的API.然后它接受JSON字符串并将其作为文件保存在本地文件系统上,然后我将其手动移动到HDFS中.我想改变它,所以我的python脚本直接保存到HDFS,而不是首先命中本地文件系统.我目前正在尝试使用HDFS和DFS命令保存文件,但我不认为复制命令是正确的方法,因为它不是文件,而是我尝试保存时的JSON字符串.
现行守则
import urllib2
import json
import os
f = urllib2.urlopen('RESTful_API_URL.json')
json_string = json.loads(f.read().decode('utf-8'))
with open('\home\user\filename.json', 'w') as outfile:
json.dump(json_string,outfile)
Run Code Online (Sandbox Code Playgroud)
新规范
f = urllib2.urlopen('RESTful_API_URL.json')
json_string = json.loads(f.read().decode('utf-8'))
os.environ['json_string'] = json.dump(json_string)
os.system('hdfs dfs -cp -f $json_string hdfs/user/test')
Run Code Online (Sandbox Code Playgroud) 尝试循环遍历一系列单元格,并根据另一个单元格中的文本值为它们分配标签.所以如果Cell J2 ="This Text"那么Cell A2 ="This Label"
截至目前,我一直得到运行时错误号424,说明需要对象
Private Function getPhase(ByVal cell As Range) As String
Select Case cell.Text
Case "Text1"
getPhase = "Label1"
Case "Text2"
getPhase = "Label2"
End Select
End Function
Sub setPhase()
Dim cycle As Range
Dim phase As Range
Set cycle = Range("J2:J10")
Set phase = Range("A2:A10")
For Each cell In phase.Cells
phase.Text = getPhase(cycle)
Next cell
End Sub
Run Code Online (Sandbox Code Playgroud) 是否可以使用数组/列表作为参数之一调用bash脚本?我已经尝试了下面的示例,但是它失败了"(".我试图获得3美元来为我的脚本分配一个列表.
bash file_manipulation.sh source_dir target_dir (filename1 filename2)
Run Code Online (Sandbox Code Playgroud) apache-spark ×3
python ×3
pyspark ×2
backbone.js ×1
bash ×1
excel ×1
excel-vba ×1
hadoop ×1
hdfs ×1
javascript ×1
json ×1
parse.js ×1
perl ×1
scala ×1
vba ×1