小编Sah*_*sai的帖子

Importing a large text file into Spark

我有一个 360GB 的管道分隔文本文件,经过压缩 (gzip)。该文件位于 S3 存储桶中。这是我第一次使用 Spark。据我所知,您可以对文件进行分区,以便允许多个工作节点对数据进行操作,从而带来巨大的性能提升。但是,我正在尝试找到一种有效的方法将我的一个 360GB 文件转换为分区文件。有没有一种方法可以使用多个 Spark 工作节点来处理我的一个压缩文件以便对其进行分区?不幸的是,我无法控制我只得到一个巨大文件的事实。我可以自己解压缩该文件并将其分解为许多文件(例如 360 1GB 文件),但我只使用一台机器来执行此操作,并且速度会非常慢。我需要使用 Spark 对数据运行一些昂贵的转换,因此我认为对文件进行分区是必要的。我在 Amazon Glue 中使用 Spark,因此我知道它可以扩展到大量机器。另外,我正在使用 python (pyspark)。

谢谢。

bigdata apache-spark pyspark

5
推荐指数
1
解决办法
1628
查看次数

提取不带后缀或子域名的域名

我有一个包含一些域名的表

    site
1 Google.com
2 yahoo.in
3 facebook.com
4 badge.net
Run Code Online (Sandbox Code Playgroud)

所以,我想删除"."之后的所有单词.例如(.com,.net,.in).我使用下面的函数,但将我的字符串转换为数字形式.

gsub("\\..*","",df)
Run Code Online (Sandbox Code Playgroud)

regex string r

3
推荐指数
1
解决办法
319
查看次数

标签 统计

apache-spark ×1

bigdata ×1

pyspark ×1

r ×1

regex ×1

string ×1