我在Spark Dataframe中有一个包含列的列df.列是格式的字符串:
10001010000000100000000000000000
10001010000000100000000100000000
Run Code Online (Sandbox Code Playgroud)
有没有一种简单有效的方法来创建新列"no_of_ones"并使用Dataframe计算频率?使用RDD我可以map(lambda x:x.count('1'))(pyspark).另外,如何检索列表的位置?