小编And*_*rle的帖子

使用Spark Dataframe API计算列中的特定字符

我在Spark Dataframe中有一个包含列的列df.列是格式的字符串:

10001010000000100000000000000000
10001010000000100000000100000000
Run Code Online (Sandbox Code Playgroud)

有没有一种简单有效的方法来创建新列"no_of_ones"并使用Dataframe计算频率?使用RDD我可以map(lambda x:x.count('1'))(pyspark).另外,如何检索列表的位置?

apache-spark pyspark spark-dataframe

3
推荐指数
1
解决办法
2842
查看次数

标签 统计

apache-spark ×1

pyspark ×1

spark-dataframe ×1