我有一个这样的数据框:
df = spark.createDataFrame([(0, ["B","C","D","E"]),(1,["E","A","C"]),(2, ["F","A","E","B"]),(3,["E","G","A"]),(4,["A","C","E","B","D"])], ["id","items"])
Run Code Online (Sandbox Code Playgroud)
它创建了一个df像这样的数据框:
+---+-----------------+
| 0| [B, C, D, E]|
| 1| [E, A, C]|
| 2| [F, A, E, B]|
| 3| [E, G, A]|
| 4| [A, C, E, B, D]|
+---+-----------------+
Run Code Online (Sandbox Code Playgroud)
我想得到这样的结果:
+---+-----+
|all|count|
+---+-----+
| F| 1|
| E| 5|
| B| 3|
| D| 2|
| C| 3|
| A| 4|
| G| 1|
+---+-----+
Run Code Online (Sandbox Code Playgroud)
这基本上只是找到所有不同的元素df["items"]并计算它们的频率。如果我的数据更易于管理,我会这样做:
all_items = df.select(explode("items").alias("all"))
result = all_items.groupby(all_items.all).count().distinct()
result.show()
Run Code Online (Sandbox Code Playgroud)
但是因为我的数据在每个列表中有数百万行和数千个元素,所以这不是一个选项。我正在考虑逐行执行此操作,以便一次只处理 2 个列表。因为大多数元素经常在多行中重复(但每行中的列表是一个集合),这种方法应该可以解决我的问题。但问题是,我真的不知道如何在 …
我在Mac OS X 10.9.4 Maverics上.我使用R控制台下载一些文件(使用Rstudio对我的问题没有影响),版本R 3.1.1,GUI 1.65 Snow Leopard build(6784).我使用以下代码下载了一些数据:
dataset_url <- "http://s3.amazonaws.com/practice_assignment/diet_data.zip"
download.file(dataset_url, "diet_data.zip")
unzip("diet_data.zip", exdir = "diet_data")
Run Code Online (Sandbox Code Playgroud)
然后,如果我检查我的目录:
getwd()
# [1] "/Users/katarinamayer/Desktop/diet_data"
list.files("diet_data")
# character(0)
Run Code Online (Sandbox Code Playgroud)
但如果我输入:
list.files()
# [1] "Andy.csv" "David.csv" "John.csv" "Mike.csv" "Steve.csv" "weightmedian.R"
Run Code Online (Sandbox Code Playgroud)
为什么我在指定目录时无法获取文件列表list.files("diet_data")?