小编car*_*iem的帖子

python spark替代方案可以为非常大的数据爆炸

我有一个这样的数据框：

df = spark.createDataFrame([(0, ["B","C","D","E"]),(1,["E","A","C"]),(2, ["F","A","E","B"]),(3,["E","G","A"]),(4,["A","C","E","B","D"])], ["id","items"])

Run Code Online (Sandbox Code Playgroud)

它创建了一个df像这样的数据框：

+---+-----------------+
|  0|     [B, C, D, E]|
|  1|        [E, A, C]|
|  2|     [F, A, E, B]|
|  3|        [E, G, A]|
|  4|  [A, C, E, B, D]|
+---+-----------------+

Run Code Online (Sandbox Code Playgroud)

我想得到这样的结果：

+---+-----+
|all|count|
+---+-----+
|  F|    1|
|  E|    5|
|  B|    3|
|  D|    2|
|  C|    3|
|  A|    4|
|  G|    1|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

这基本上只是找到所有不同的元素df["items"]并计算它们的频率。如果我的数据更易于管理，我会这样做：

all_items = df.select(explode("items").alias("all")) 
result = all_items.groupby(all_items.all).count().distinct() 
result.show()

Run Code Online (Sandbox Code Playgroud)

但是因为我的数据在每个列表中有数百万行和数千个元素，所以这不是一个选项。我正在考虑逐行执行此操作，以便一次只处理 2 个列表。因为大多数元素经常在多行中重复（但每行中的列表是一个集合），这种方法应该可以解决我的问题。但问题是，我真的不知道如何在 …

python arrays count apache-spark

car*_*iem

2018 10-12

5
推荐指数

1
解决办法

2811
查看次数

使用list.files()在目录中列出文件

我在Mac OS X 10.9.4 Maverics上.我使用R控制台下载一些文件(使用Rstudio对我的问题没有影响),版本R 3.1.1,GUI 1.65 Snow Leopard build(6784).我使用以下代码下载了一些数据:

dataset_url <- "http://s3.amazonaws.com/practice_assignment/diet_data.zip" 
download.file(dataset_url, "diet_data.zip")
unzip("diet_data.zip", exdir = "diet_data")

Run Code Online (Sandbox Code Playgroud)

然后,如果我检查我的目录:

getwd()
# [1] "/Users/katarinamayer/Desktop/diet_data"
list.files("diet_data")
# character(0)

Run Code Online (Sandbox Code Playgroud)

但如果我输入:

list.files()
# [1] "Andy.csv"       "David.csv"      "John.csv"       "Mike.csv"       "Steve.csv"      "weightmedian.R"

Run Code Online (Sandbox Code Playgroud)

为什么我在指定目录时无法获取文件列表list.files("diet_data")？

car*_*iem

2014 09-15

3
推荐指数

1
解决办法

4928
查看次数

标签统计

apache-spark ×1

arrays ×1

count ×1

python ×1

r ×1

python spark替代方案可以为非常大的数据爆炸

使用list.files()在目录中列出文件

标签 统计

小编car_iem的帖子

标签统计