小编arc*_*nic的帖子

向Spark DataFrame添加一个空列

如在Web上的许多其他位置所述,向现有DataFrame添加新列并不简单.不幸的是,拥有此功能非常重要(即使它在分布式环境中效率低下),尤其是在尝试连接两个DataFrames时unionAll.

将null列添加到a DataFrame以便于实现最优雅的解决方法是unionAll什么？

我的版本是这样的:

from pyspark.sql.types import StringType
from pyspark.sql.functions import UserDefinedFunction
to_none = UserDefinedFunction(lambda x: None, StringType())
new_df = old_df.withColumn('new_column', to_none(df_old['any_col_from_old']))

Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark apache-spark-sql pyspark

arc*_*nic

2019 01-10

26
推荐指数

3
解决办法

4万
查看次数

从pyspark手动调用spark的垃圾收集

我在本地模式下使用pyspark 1.5在我的4核16GB机器上运行了大约3百万条记录x 15列所有字符串的工作流程.我注意到如果我在没有首先重启spark的情况下再次运行相同的工作流程,则内存耗尽并且我会出现Out of Memory Exceptions.

由于我的所有缓存总计大约1 GB,我认为问题在于垃圾收集.我能够通过调用以下方式手动运行python垃圾收集器:

import gc
collected = gc.collect()
print "Garbage collector: collected %d objects." % collected

Run Code Online (Sandbox Code Playgroud)

这有点帮助.

我根据这篇文章使用了spark的GC设置,并尝试压缩RDD并将序列化器更改为Kyro.这减慢了处理速度,对内存没有多大帮助.

因为我确切知道何时有空闲的cpu周期来调用GC,所以它可以帮助我了解如何在JVM中手动调用它.

python java garbage-collection apache-spark pyspark

arc*_*nic

2015 11-13

12
推荐指数

1
解决办法

5083
查看次数

pandas查询无值

我有一个包含不同dtypes列的数据框,我需要 pandas.query用来过滤列.

列可以包含缺失值:NaN,None并且NaT我需要显示包含此类值的行.有没有办法在传递给的表达式中执行此操作pandas.query？我知道它可以使用不同的方法完成,但我需要知道它是否可以通过query

对于布尔列,我可以通过声明来使用解决方法:

df.query('col not in (True, False)')

Run Code Online (Sandbox Code Playgroud)

但这不适用于其他类型的列.任何帮助表示赞赏,包括解决方法.

python pandas

arc*_*nic

2015 08-26

9
推荐指数

1
解决办法

2389
查看次数

Qt Property Browser Framework或类似的python

我正在为我的一个项目使用pyqt,并且需要一个类似于qtdesigner提供的支持分层属性的属性浏览器:

我发现Qt支持属性浏览器框架,但无法在pyqt中找到它,所以我跳到pyqt不支持这个框架的结论.

pyqt是否支持这个框架或类似的东西？或者我应该从头开始编码吗？

python qt pyqt

arc*_*nic

lucky-day

5
推荐指数

1
解决办法

661
查看次数

标签统计

python ×4

apache-spark ×2

pyspark ×2

apache-spark-sql ×1

dataframe ×1

garbage-collection ×1

java ×1

pandas ×1

pyqt ×1

qt ×1

向Spark DataFrame添加一个空列

从pyspark手动调用spark的垃圾收集

pandas查询无值

Qt Property Browser Framework或类似的python

标签 统计

小编arc_nic的帖子

标签统计