小编Sah*_*sai的帖子

Importing a large text file into Spark

我有一个 360GB 的管道分隔文本文件，经过压缩 (gzip)。该文件位于 S3 存储桶中。这是我第一次使用 Spark。据我所知，您可以对文件进行分区，以便允许多个工作节点对数据进行操作，从而带来巨大的性能提升。但是，我正在尝试找到一种有效的方法将我的一个 360GB 文件转换为分区文件。有没有一种方法可以使用多个 Spark 工作节点来处理我的一个压缩文件以便对其进行分区？不幸的是，我无法控制我只得到一个巨大文件的事实。我可以自己解压缩该文件并将其分解为许多文件（例如 360 1GB 文件），但我只使用一台机器来执行此操作，并且速度会非常慢。我需要使用 Spark 对数据运行一些昂贵的转换，因此我认为对文件进行分区是必要的。我在 Amazon Glue 中使用 Spark，因此我知道它可以扩展到大量机器。另外，我正在使用 python (pyspark)。

谢谢。

bigdata apache-spark pyspark

Dwa*_*ill

2017 10-27

5
推荐指数

1
解决办法

1628
查看次数

提取不带后缀或子域名的域名

我有一个包含一些域名的表

    site
1 Google.com
2 yahoo.in
3 facebook.com
4 badge.net

Run Code Online (Sandbox Code Playgroud)

所以,我想删除"."之后的所有单词.例如(.com,.net,.in).我使用下面的函数,但将我的字符串转换为数字形式.

gsub("\\..*","",df)

Run Code Online (Sandbox Code Playgroud)

regex string r

Sah*_*sai

2016 09-01

3
推荐指数

1
解决办法

319
查看次数

标签统计

apache-spark ×1

bigdata ×1

pyspark ×1

r ×1

regex ×1

string ×1

Importing a large text file into Spark

提取不带后缀或子域名的域名

标签 统计

小编Sah_sai的帖子

标签统计