小编San*_*pta的帖子

如何从网址中删除查询？

我正在使用scrapy来抓取一个网站,该网站似乎将随机值附加到每个网址末尾的查询字符串中.这使得爬行成为一种无限循环.

如何让scrapy忽略URL的查询字符串部分？

python url web-crawler scrapy

San*_*pta

2016 03-18

12
推荐指数

4
解决办法

1万
查看次数

Haproxy solr healthcheck with authentication

这是我的配置文件

listen  solr 0.0.0.0:8983
mode http
balance roundrobin
option httpchk GET "/solr/select/?q=id:1234" HTTP/1.1
server solr_slave 1.1.1.1:8983 maxconn 5000 weight 256 check
server solr_master 2.2.2.2:8983 maxconn 5000 weight 1 check

Run Code Online (Sandbox Code Playgroud)

问题是我的solr服务器使用基本的http密码身份验证进行保护,因此运行状况检查始终失败

我怎么告诉haproxy在健康检查期间使用这些凭据？

haproxy

San*_*pta

2013 03-01

10
推荐指数

1
解决办法

1万
查看次数

使用Cakephp 2+ Shell中的组件

我正在尝试使用cakephp shell为我的应用程序实现一个任务.该任务涉及运行一个长时间运行的进程(因此需要使用shell).

该函数要求我在Component中使用一个名为CommonComponent的函数

不幸的是,每当我尝试包含该组件时,我得到以下错误PHP致命错误:在/var/www/nginx-test/app/Controller/Component/CommonComponent.php中找不到类'组件'

这是被调用的CronShell类

class CronShell extends AppShell {
   public function main() {
        $this->out('Hello world.');      
//  $this->out(phpinfo());
    }
     public function test()
    {
         $this->out('Before Import'); 
        App::import('Component', 'Common');
        $this->out('Import complete');
        // $this->Common=ClassRegistry::init('CommonComponent');
        $this->Common =new CommonComponent();
        $this->out('Initialization complete');
        $this->Common->testCron();
         $this->out('FunctionCall complete');
        //$this->Common->saveCacheEntry("name","value");
    }
    }

Run Code Online (Sandbox Code Playgroud)

CommonComponent类存储为app/Controller/Component/CommonComponent.php,如下所示

 class CommonComponent extends Component
{
 function testCron()
    {    
     $this->out('Hello world from Component.');
    }
 }

Run Code Online (Sandbox Code Playgroud)

有任何想法吗？

components cakephp-2.0

San*_*pta

lucky-day

5
推荐指数

2
解决办法

1万
查看次数

Scrapy：站点地图蜘蛛和 gzip 压缩文件

我尝试运行站点地图蜘蛛，但它拒绝抓取 gzip 压缩的站点地图。它给出了以下错误

[scrapy] WARNING: Ignoring non-XML sitemap

Run Code Online (Sandbox Code Playgroud)

是否需要启用一个设置才能允许解析 gzip 站点地图？

我用的是scrapy版本0.15

sitemap scrapy

San*_*pta

2011 12-23

4
推荐指数

1
解决办法

2639
查看次数

删除在 Glacier 中存档了一些数据的 S3 存储桶

我们有一个巨大的存储桶，我们为其设置了生命周期规则以将数据存档到 Glacier。现在我们决定不需要该存储桶中的数据，因此想要删除 Glacier 和 s3 中存储的所有数据。如果我从 s3 中删除存储桶，我们会承担检索数据的冰川成本还是删除是免费的？该存储桶有 TB 的数据，我们绝对不想支付 AWS 数千美元的检索成本

amazon-s3 amazon-glacier

San*_*pta

lucky-day

3
推荐指数

1
解决办法

2278
查看次数