小编Gui*_*e G的帖子

根据row_number过滤RDD

sc.textFile(path)允许读取HDFS文件,但它不接受参数(比如跳过多行,has_headers,......).

在"学习星火"O'Reilly电子书中,建议使用以下函数读取CSV(例5-12.Python加载CSV示例)

import csv
import StringIO

def loadRecord(line):
"""Parse a CSV line"""
input = StringIO.StringIO(line)
reader = csv.DictReader(input, fieldnames=["name", "favouriteAnimal"])
return reader.next()
input = sc.textFile(inputFile).map(loadRecord)

Run Code Online (Sandbox Code Playgroud)

我的问题是如何选择"采取"行:

如何避免加载第一行(标题)
如何删除特定行(例如,第5行)

我在这里看到一些不错的解决方案:选择元素范围,但我想看看是否有更简单的东西.

谢谢!

python csv apache-spark

Gui*_*e G

2017 05-23

11
推荐指数

1
解决办法

9823
查看次数

Scala中Array和WrappedArray有什么区别

我对这两个系列有点困惑.

我知道Scala的Array调用Java API.在这种情况下,Wrapped Array的作用是什么(及其性能特征)？

http://www.scala-lang.org/api/current/scala/collection/mutable/WrappedArray.html

谢谢!

arrays scala

Gui*_*e G

lucky-day

10
推荐指数

1
解决办法

7307
查看次数

加入不同的专栏

我想加入2个数据帧,我正在使用Julia指南中的intructions:http://dataframesjl.readthedocs.org/en/latest/joins_and_indexing.html?highlight=join

join(a, b, on = :ID, kind = :inner)

Run Code Online (Sandbox Code Playgroud)

现在,我如何加入具有不同名称的列:

:ID用于
: b的name_id

我试过以下但它不起作用"

join(a, b, on = [ :ID, :name_id ], kind = :inner)

Run Code Online (Sandbox Code Playgroud)

如果没有实现,这将是一个很好的功能

join inner-join julia

Gui*_*e G

2014 12-22

7
推荐指数

1
解决办法

282
查看次数

Spark返回Pickle错误:无法查找属性

尝试在我的RDD中启动一个类时,我正在运行一些属性查找问题.

我的工作流程

1-从RDD开始

2-获取RDD的每个元素,为每个元素启动一个对象

3- Reduce(我将编写一个稍后将定义reduce操作的方法)

这是#2:

>class test(object):
def __init__(self, a,b):
    self.total = a + b

>a = sc.parallelize([(True,False),(False,False)])
>a.map(lambda (x,y): test(x,y))

Run Code Online (Sandbox Code Playgroud)

这是我得到的错误: