小编Vig*_*ran的帖子

如何在Jedis客户端中启用redis连接的自动重新连接

我有应用程序在Redis中存储和读取日期,当Redis关闭时.Redis启动后jedis连接没有重新创建?

是否有一种方法可以在Jedis中创建连接重试

提前致谢

java jedis

9
推荐指数
1
解决办法
1996
查看次数

阅读蜘蛛scrapy中的设置

我写了一个小scrapy蜘蛛.以下是我的代码

class ElectronicsSpider(scrapy.Spider):
    name = "electronics"
    allowed_domains = ["www.olx.com"]
    start_urls = ['http://www.olx.com/']

    def parse(self, response):
        pass
Run Code Online (Sandbox Code Playgroud)

我的问题是,我想使用设置读取名称,allowed_domains和start_urls.我怎样才能做到这一点?

我试过导入

 from scrapy.settings import Settings
Run Code Online (Sandbox Code Playgroud)

也尝试了这个

 def __init__(self,crawler):
        self.settings = crawler.settings
Run Code Online (Sandbox Code Playgroud)

但我没有/错误.帮我看看蜘蛛中的设置?

python scrapy

8
推荐指数
2
解决办法
3336
查看次数

如何克服 AWS Glue 作业中的 Spark“设备上没有剩余空间”错误

我曾使用 AWS Glue 作业和 PySpark 从超过 10 TB 的 s3 parquet 文件中读取数据,但作业在执行 Spark SQL 查询期间失败并出现错误

java.io.IOException: No space left on the device
Run Code Online (Sandbox Code Playgroud)

通过分析,我发现 AWS Glue 工作人员G1.x有 4 个 vCPU、16 GB 内存和 64 GB 磁盘。所以我们试图增加工人的数量

即使在将 Glue 工作器 (G1.X) 的数量增加到 50 之后,Glue Jobs 仍会因相同的错误而失败。

有没有办法将 Spark 本地临时目录配置为 s3 而不是本地文件系统?或者我们可以在 Glue 工人上安装 EBS 卷。

我曾尝试在 Spark Session builder 中配置该属性,但 Spark 仍在使用本地 tmp 目录

SparkSession.builder.appName("app").config("spark.local.dir", "s3a://s3bucket/temp").getOrCreate()
Run Code Online (Sandbox Code Playgroud)

pyspark aws-glue

7
推荐指数
3
解决办法
952
查看次数

如何将MongoDB集群创建为Docker容器

我可以使用以下Docker命令在Mongo上运行单个实例

docker run -it --rm -d -p 27017:27017 --user mongodb mongo:3.4

但我无法了解如何配置Config Server和查询路由器以及如何使用Replication添加分片

提前致谢

mongodb docker

3
推荐指数
1
解决办法
6988
查看次数

标签 统计

aws-glue ×1

docker ×1

java ×1

jedis ×1

mongodb ×1

pyspark ×1

python ×1

scrapy ×1