小编Jar*_*red的帖子

从pyspark中的数据框中删除重复项

我在本地pyspark 1.4中乱搞数据帧,并且在使用drop duplicates方法时遇到问题.继续返回错误"AttributeError:'list'对象没有属性'dropDuplicates'".不太清楚为什么我似乎遵循最新文档中的语法.好像我错过了该功能的导入或其他东西.

#loading the CSV file into an RDD in order to start working with the data
rdd1 = sc.textFile("C:\myfilename.csv").map(lambda line: (line.split(",")[0], line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect()

#loading the RDD object into a dataframe and assigning column names
df1 = sqlContext.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4']).collect()

#dropping duplicates from the dataframe
df1.dropDuplicates().show()
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

15
推荐指数
2
解决办法
5万
查看次数

问题检查用于创建用户的平面文件的用户输入

我正在进行用户登录,并且遇到了用户创建部分的问题.我的问题是我正在尝试检查文本文件的输入用户名,看看该用户名是否已经存在.我似乎无法将输入用户名与我引入的数组进行比较.我尝试了两种不同的方法来实现这一点.一个使用数组,另一个使用我在网上阅读的东西,我不太明白.任何帮助或解释将不胜感激.

这是我尝试使用数组来比较 http://codepad.org/G7xmsf3z

这是我的第二次尝试 http://codepad.org/SbeqmdbG

perl

5
推荐指数
1
解决办法
328
查看次数

将数据帧保存到 pyspark 本地驱动器上的 JSON 文件

我有一个数据框,我试图使用 pyspark 1.4 将其另存为 JSON 文件,但它似乎不起作用。当我给它提供目录的路径时,它会返回一个错误,指出它已经存在。我基于文档的假设是它会在您提供的路径中保存一个 json 文件。

df.write.json("C:\Users\username")
Run Code Online (Sandbox Code Playgroud)

指定具有名称的目录不会产生任何文件并给出“java.io.IOException: Mkdirs failed to create file:/C:Users/username/test/_temporary/....etc”的错误。但是它会创建一个名为 test 的目录,其中包含几个带有空白 crc 文件的子目录。

df.write.json("C:\Users\username\test")
Run Code Online (Sandbox Code Playgroud)

并添加 JSON 的文件扩展名,产生相同的错误

df.write.json("C:\Users\username\test.JSON")
Run Code Online (Sandbox Code Playgroud)

python json apache-spark pyspark

5
推荐指数
1
解决办法
4万
查看次数

火花十进制类型精度损失

我正在测试火花十进制类型的货币量度,并在设置刻度和精度时看到一些奇怪的精度结果,如下所示。我想确保在计算过程中不会丢失任何数据,但是下面的示例不能确保这一点。谁能告诉我为什么Spark sql会发生这种情况?当前版本为2.3.0

val sql = """select cast(cast(3 as decimal(38,14)) / cast(9 as decimal(38,14)) as decimal(38,14)) val"""
spark.sql(sql).show
Run Code Online (Sandbox Code Playgroud)

这返回

+----------------+
|             val|
+----------------+
|0.33333300000000|
+----------------+
Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql

5
推荐指数
1
解决办法
839
查看次数

保存成功,不使用parse.com对象

我一直在试图从Web表单中保存数据并且无法获得返回的标准验证.认为这是某种异常问题,我只是没有得到.使用parse.com api保存对象是基于backbone.js构建的,因此它非常相似.出于某种原因,我可以将数据保存到我的数据库没有问题,但是当我尝试引入某种验证时,它会搞砸.寻找有关如何从服务器正确获取成功验证的一些信息.现在它每次都会出现错误,并且似乎会使服务器无法保存数据.

以下是在提交时执行的代码.我已经展示了我尝试保存数据的三种方法.

$("#f1").submit(function(event) {
        var NewRes = Parse.Object.extend("Customer");
        var newRes = new NewRes();

        newRes.set("FirstName", "Ricky");
        newRes.set("LastName", "Bobby");

        //works every time, but I have no return validating it
        newRes.save();

        //saving with callback options, doesn't save anything to the database and hits error message
        newRes.save(null, {
            wait: true,
            success: function(newRes, response) {
                alert("success" + response.message);
            },
            error: function(newRes, response) {
                alert("errorcode: " + response.code + "  Message: " + response.message);
            }
        });

        //saving with promises, doesn't save anything and hits error …
Run Code Online (Sandbox Code Playgroud)

javascript backbone.js parse-platform parse.js

3
推荐指数
1
解决办法
2448
查看次数

使用python将JSON保存到HDFS

我有一个python脚本,当前访问返回JSON的API.然后它接受JSON字符串并将其作为文件保存在本地文件系统上,然后我将其手动移动到HDFS中.我想改变它,所以我的python脚本直接保存到HDFS,而不是首先命中本地文件系统.我目前正在尝试使用HDFS和DFS命令保存文件,但我不认为复制命令是正确的方法,因为它不是文件,而是我尝试保存时的JSON字符串.

现行守则

import urllib2
import json
import os

f = urllib2.urlopen('RESTful_API_URL.json')
json_string = json.loads(f.read().decode('utf-8'))
with open('\home\user\filename.json', 'w') as outfile:
    json.dump(json_string,outfile)
Run Code Online (Sandbox Code Playgroud)

新规范

f = urllib2.urlopen('RESTful_API_URL.json')
json_string = json.loads(f.read().decode('utf-8'))
os.environ['json_string'] = json.dump(json_string)
os.system('hdfs dfs -cp -f $json_string hdfs/user/test')
Run Code Online (Sandbox Code Playgroud)

python hadoop hdfs

2
推荐指数
1
解决办法
6392
查看次数

VBA在文本中选择案例循环

尝试循环遍历一系列单元格,并根据另一个单元格中的文本值为它们分配标签.所以如果Cell J2 ="This Text"那么Cell A2 ="This Label"

截至目前,我一直得到运行时错误号424,说明需要对象

Private Function getPhase(ByVal cell As Range) As String
Select Case cell.Text
    Case "Text1"
        getPhase = "Label1"
    Case "Text2"
        getPhase = "Label2"
End Select
End Function


Sub setPhase()
Dim cycle As Range
Dim phase As Range


Set cycle = Range("J2:J10")
Set phase = Range("A2:A10")

For Each cell In phase.Cells
    phase.Text = getPhase(cycle)
Next cell

End Sub
Run Code Online (Sandbox Code Playgroud)

excel vba excel-vba

1
推荐指数
3
解决办法
2万
查看次数

使用list/array作为参数调用bash脚本

是否可以使用数组/列表作为参数之一调用bash脚本?我已经尝试了下面的示例,但是它失败了"(".我试图获得3美元来为我的脚本分配一个列表.

bash file_manipulation.sh source_dir target_dir (filename1 filename2)
Run Code Online (Sandbox Code Playgroud)

bash

1
推荐指数
1
解决办法
72
查看次数