我对 sparklyr 和 spark 很陌生,所以如果这不是执行此操作的“spark”方式,请告诉我。
我有 50 多个 .txt 文件,每个文件大约 300 mb,都在同一个文件夹中,称之为x,我需要导入到 sparklyr,最好是一张表。
我可以单独阅读它们
spark_read_csv(path=x, sc=sc, name="mydata", delimiter = "|", header=FALSE)
Run Code Online (Sandbox Code Playgroud)
如果我要将它们全部导入到 sparklyr 之外,我可能会创建一个包含文件名的列表,调用它filelist,然后将它们全部导入到带有 lapply 的列表中
filelist = list.files(pattern = ".txt")
datalist = lapply(filelist, function(x)read.table(file = x, sep="|", header=FALSE))
Run Code Online (Sandbox Code Playgroud)
这给了我一个列表,其中元素k是.txt 文件中的第k个 .txt 文件filelist。所以我的问题是:在 sparklyr 中是否有等效的方法来做到这一点?
我试过使用lapply()and spark_read_csv,就像我在 sparklyr 外面所做的那样。刚刚更改read.table为spark_read_csv和参数
datalist = lapply(filelist, function(x)spark_read_csv(path = x, sc = sc, name = "name", …Run Code Online (Sandbox Code Playgroud)