我有一个 360GB 的管道分隔文本文件,经过压缩 (gzip)。该文件位于 S3 存储桶中。这是我第一次使用 Spark。据我所知,您可以对文件进行分区,以便允许多个工作节点对数据进行操作,从而带来巨大的性能提升。但是,我正在尝试找到一种有效的方法将我的一个 360GB 文件转换为分区文件。有没有一种方法可以使用多个 Spark 工作节点来处理我的一个压缩文件以便对其进行分区?不幸的是,我无法控制我只得到一个巨大文件的事实。我可以自己解压缩该文件并将其分解为许多文件(例如 360 1GB 文件),但我只使用一台机器来执行此操作,并且速度会非常慢。我需要使用 Spark 对数据运行一些昂贵的转换,因此我认为对文件进行分区是必要的。我在 Amazon Glue 中使用 Spark,因此我知道它可以扩展到大量机器。另外,我正在使用 python (pyspark)。
谢谢。
我有一个包含一些域名的表
site
1 Google.com
2 yahoo.in
3 facebook.com
4 badge.net
Run Code Online (Sandbox Code Playgroud)
所以,我想删除"."之后的所有单词.例如(.com,.net,.in).我使用下面的函数,但将我的字符串转换为数字形式.
gsub("\\..*","",df)
Run Code Online (Sandbox Code Playgroud)