小编shi*_*han的帖子

我对 sparklyr 和 spark 很陌生，所以如果这不是执行此操作的“spark”方式，请告诉我。

我有 50 多个 .txt 文件，每个文件大约 300 mb，都在同一个文件夹中，称之为x，我需要导入到 sparklyr，最好是一张表。

我可以单独阅读它们

spark_read_csv(path=x, sc=sc, name="mydata", delimiter = "|", header=FALSE)

如果我要将它们全部导入到 sparklyr 之外，我可能会创建一个包含文件名的列表，调用它filelist，然后将它们全部导入到带有 lapply 的列表中

filelist = list.files(pattern = ".txt")
datalist = lapply(filelist, function(x)read.table(file = x, sep="|", header=FALSE))

这给了我一个列表，其中元素k是.txt 文件中的第k个 .txt 文件filelist。所以我的问题是：在 sparklyr 中是否有等效的方法来做到这一点？

我试过使用lapply()and spark_read_csv，就像我在 sparklyr 外面所做的那样。刚刚更改read.table为spark_read_csv和参数

datalist = lapply(filelist, function(x)spark_read_csv(path = x, sc = sc, name = "name", …

4
推荐指数

1
解决办法

1340
查看次数

r ×1

小编shi_han的帖子