小编Nap*_*Jon的帖子

什么是Spark DataFrame方法`toPandas`实际上在做什么?

我是Spark-DataFrame API的初学者.

我使用此代码将csv tab分隔为Spark Dataframe

lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *some name list*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)
Run Code Online (Sandbox Code Playgroud)

假设我使用Spark从新文件创建DataFrame,并使用内置方法toPandas()将其转换为pandas,

  • 它是否将Pandas对象存储到本地内存?
  • Pandas低级计算是否由Spark处理?
  • 它是否暴露了所有pandas数据帧功能?(我想是的)
  • 我可以将它转换为潘达斯,只是完成它,没有那么多的触摸DataFrame API?

python pandas apache-spark pyspark

44
推荐指数
2
解决办法
5万
查看次数

如何在Pandas过滤+/- 1天?

嗨,大家好想我有时间序列数据.如何过滤仅在1天内发生的数据不同?

假设数据是

date         name
2015-04-03    A
2015-04-04    A
2015-04-05    A
2015-04-03    B
Run Code Online (Sandbox Code Playgroud)

我想做的就像是

df[df.shift(1).contains(df.name) or df.shift(-1).contains(df.name)]
Run Code Online (Sandbox Code Playgroud)

那会给我的

date         name
2015-04-03    A
2015-04-04    A
2015-04-05    A
Run Code Online (Sandbox Code Playgroud)

如何在熊猫中做到这一点?

python pandas

5
推荐指数
1
解决办法
602
查看次数

C++ 11在公共函数中设置lambda

如何妥善解决这个问题?

 class House{
 public:
  void startAction();
  void init(){
      startAction = [] () {}; 
  }  
 };
Run Code Online (Sandbox Code Playgroud)

我试过这个,但据说"表达不可转让"

我想定义startAction的功能,但是在init方法中.

我这样做是因为我想捕获的init方法中有几个变量传递给startAction.

c++ lambda c++11

0
推荐指数
2
解决办法
92
查看次数

标签 统计

pandas ×2

python ×2

apache-spark ×1

c++ ×1

c++11 ×1

lambda ×1

pyspark ×1