小编sac*_*rus的帖子

我正在尝试在我们公司引入 GitOps。大多数情况下，我们都有用 Django 编写的微服务（但是，它也可以是任何其他 Web 框架）。我对数据库迁移有一个概念性问题。向前迁移很简单：您可以将它们作为作业或 init 容器或 helm 中的钩子来运行。但是向后迁移呢？假设我想从 v1.1 回滚到 v1.0，并且我有一些迁移需要取消应用。现在怎么办？我想使用 argo cd 或 Flux。

有一篇非常好的文章：https://www.weave.works/blog/how-to- Correctly-handle-db-schemas-during-kubernetes-rollouts 。然而，它需要一些 Django 中没有的纪律

fluxcd gitops argocd

sac*_*rus

lucky-day

7
推荐指数

1
解决办法

3127
查看次数

如何在 Helm 中仅呈现选定的模板？

我的掌舵图中有大约 20 个 yaml + 大量依赖项，我想检查特定一个的渲染输出。helm template渲染所有 yaml 并生成一百行代码。有没有办法（甚至有一个正则表达式会很好）只呈现选定的模板（通过文件或例如名称）。

kubernetes-helm

sac*_*rus

lucky-day

6
推荐指数

2
解决办法

5022
查看次数

当我将 WholeTextFiles() 与 pyspark 结合使用时，为什么 AWS 拒绝了我的连接？

我用

sc.wholeTextFiles(",".join(fs), minPartitions=200)

Run Code Online (Sandbox Code Playgroud)

在具有 96cpus 的单个 dataproc 节点上从 S3 下载 6k XMLs 文件（每个文件 50MB）。当我有 minPartitions=200 时，AWS 拒绝了我的连接，但是当我使用 minPartitions=50 时一切正常。为什么？

来自 Spark 的一些日志：

(...)
19/05/22 14:11:17 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:17 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:26 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:26 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 …

Run Code Online (Sandbox Code Playgroud)

python scala amazon-s3 apache-spark pyspark

sac*_*rus

2019 05-23

2
推荐指数

1
解决办法

1467
查看次数

从scrapy提取20万个域中的文本

我的问题是：我想从某个域中提取所有有价值的文本，例如www.example.com。因此，我转到该网站并访问深度最大为2的所有链接，并将其写入csv文件。

我用scrapy编写了模块，使用1个进程解决了这个问题，并产生了多个爬虫，但是效率很低-我能够抓取〜1k域/〜5k网站/ h，据我所知，瓶颈是CPU（因为GIL？）。离开PC一段时间后，我发现网络连接断开。

当我想使用多个进程时，我只是从扭曲中得到了错误：并行进程中Scrapy Spiders的多处理因此，这意味着我必须学习扭曲，与asyncio相比，我会说我已弃用，但这只是我的见解。

所以我有几个想法怎么办

进行反击，并尝试使用Redis来学习扭曲并实现多处理和分布式队列，但是我不认为scrapy是适合这种工作的工具。
使用pyspider-具有我需要的所有功能（我从未使用过）
适可而止-这是如此复杂（我从未使用过）
尝试构建自己的分布式搜寻器，但是在搜寻了4个网站之后，我发现了4种极端情况：SSL，重复项，超时。但是添加一些修改很容易，例如：集中爬网。

您推荐什么解决方案？

Edit1：共享代码

class ESIndexingPipeline(object):
    def __init__(self):
        # self.text = set()
        self.extracted_type = []
        self.text = OrderedSet()
        import html2text
        self.h = html2text.HTML2Text()
        self.h.ignore_links = True
        self.h.images_to_alt = True

    def process_item(self, item, spider):
        body = item['body']
        body = self.h.handle(str(body, 'utf8')).split('\n')

        first_line = True
        for piece in body:
            piece = piece.strip(' \n\t\r')
            if len(piece) == 0:
                first_line = True
            else:
                e = ''
                if not self.text.empty() and not first_line and not …

Run Code Online (Sandbox Code Playgroud)

python web-crawler nutch scrapy pyspider

sac*_*rus

2017 05-23

1
推荐指数

1
解决办法

436
查看次数