小编ale_cxe的帖子

加快网络刮刀

我正在使用一个非常简单的网络刮刀抓取23770个网页scrapy.我对scrapy甚至python都很陌生,但设法编写了一个完成这项工作的蜘蛛.然而,它真的很慢(爬行23770页大约需要28个小时).

我查看了scrapy网页和邮件列表stackoverflow,但我似乎无法找到编写快速爬虫的通用建议,这对于初学者来说是可以理解的.也许我的问题不是蜘蛛本身,而是我运行它的方式.欢迎所有建议!

我已经在下面列出了我的代码,如果需要的话.

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item, Field
import re

class Sale(Item):
    Adresse = Field()
    Pris = Field()
    Salgsdato = Field()
    SalgsType = Field()
    KvmPris = Field()
    Rum = Field()
    Postnummer = Field()
    Boligtype = Field()
    Kvm = Field()
    Bygget = Field()

class HouseSpider(BaseSpider):
    name = 'House'
    allowed_domains = ["http://boliga.dk/"]
    start_urls = ['http://www.boliga.dk/salg/resultater?so=1&type=Villa&type=Ejerlejlighed&type=R%%C3%%A6kkehus&kom=&amt=&fraPostnr=&tilPostnr=&iPostnr=&gade=&min=&max=&byggetMin=&byggetMax=&minRooms=&maxRooms=&minSize=&maxSize=&minsaledate=1992&maxsaledate=today&kode=&p=%d' %n for n in xrange(1, 23770, 1)]

    def parse(self, response):
        hxs = HtmlXPathSelector(response) …

Run Code Online (Sandbox Code Playgroud)

python performance scrapy web-scraping scrapy-spider

16
推荐指数

2
解决办法

1万
查看次数

在AngularJS应用程序的Protractor测试中访问localStorage

我正在编写一些测试来验证输入数据是否正确存储在本地存储中,如何从量角器测试中访问localStorage？

...
describe('vgPersist', function() {
  it('Should save input data in local storage until form submitted', function() {
    // Prepare Object and Open browser
    var addOns = new AddOns();
    addOns.get();

    -> Clear localStorage
    -> Get from localStorage

Run Code Online (Sandbox Code Playgroud)

你如何使用executeScript？我可以从executeScript获取数据吗？

javascript testing local-storage angularjs protractor

16
推荐指数

1
解决办法

1万
查看次数

Django无法访问raw_post_data

Django我遇到了一个奇怪的事情,这是我的views.py:

def api(request):
    return HttpResponse("%s %s" % (request.method,request.raw_post_data))

Run Code Online (Sandbox Code Playgroud)

现在我使用POSTMAN(谷歌浏览器的小应用程序)进行HTTP POST.

我将POSTMAN设置为在原始字段中使用'test'发出POST请求.

Django给我三个不同的东西(随机):

有时Django会在某个时候返回'GET',有时甚至没有:

AttributeError at /
'WSGIRequest' object has no attribute 'raw_post_data'
Request Method: GET
Request URL:    https://api.mywebsiteurl.com/
Django Version: 1.6.2
Exception Type: AttributeError
Exception Value:    
'WSGIRequest' object has no attribute 'raw_post_data'
Exception Location: /home/spice_dj/spice/views.py in api, line 17
Python Executable:  /usr/bin/python
Python Version: 2.7.3
Python Path:    
['/usr/local/lib/python2.7/dist-packages/South-0.8.4-py2.7.egg',
 '/usr/lib/python2.7',
 '/usr/lib/python2.7/plat-linux2',
 '/usr/lib/python2.7/lib-tk',
 '/usr/lib/python2.7/lib-old',
 '/usr/lib/python2.7/lib-dynload',
 '/usr/local/lib/python2.7/dist-packages',
 '/usr/lib/python2.7/dist-packages',
 '/home/spice_dj']
Server time:    Wed, 12 Mar 2014 22:51:11 -0400

Run Code Online (Sandbox Code Playgroud)

当我清楚地发出POST请求时,为什么Django会回复我'GET'？
为什么它会给我这个错误？
为什么它不会返回我在原始字段中设置的"测试"？

python django django-1.6

16
推荐指数

1
解决办法

1万
查看次数

按主题搜索PyPI

对于每个python包,您可以指定分类器列表.其中有一个Topic分类器,它将包放在可以浏览PyPI的指定类别中.

例如,numpy有以下主题:

Topic :: Software Development
Topic :: Scientific/Engineering

Run Code Online (Sandbox Code Playgroud)

有没有办法按编程方式使用主题pip search或其他第三方库进行搜索？

python pip package-managers pypi

16
推荐指数

1
解决办法

626
查看次数

美丽的汤得到tag.id

我试图从页面中获取div id列表.当我打印出属性时,我会列出ID.

for tag in soup.find_all(class_="bookmark blurb group") :
  print(tag.attrs)

Run Code Online (Sandbox Code Playgroud)

结果是:

{'id': 'bookmark_8199633', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_7744613', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_7338591', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_7338535', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_4530078', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}

Run Code Online (Sandbox Code Playgroud)

所以我知道有些ID.但是,当我打印出tag.id时,我只得到一个"无"列表.我在这做错了什么？

html python beautifulsoup html-parsing

16
推荐指数

1
解决办法

2万
查看次数

自动导入不遵循PEP8

请考虑以下代码:

from bs4 import BeautifulSoup


data = "<test>test text</test>"
soup = BeautifulSoup(data)
print(soup.find(text=re.compile(r'test$')))

Run Code Online (Sandbox Code Playgroud)

它缺少一条import re线,NameError没有它就会失败.

现在,我尝试使用PyCharm的自动导入功能:重点re和打击Alt+Enter,这将打开如下弹出:

在此输入图像描述

现在,如果我选择Import 're'选项,Pycharm会在脚本顶部插入新的导入行:

import re
from bs4 import BeautifulSoup


data = "<test>test text</test>"
soup = BeautifulSoup(data)
print(soup.find(text=re.compile(r'test$')))

Run Code Online (Sandbox Code Playgroud)

看起来几乎不错,但它没有遵循PEP8导入指南:

应按以下顺序对导入进行分组:

标准库导入

相关的第三方进口

本地应用程序/库特定导入

您应该在每组导入之间添加一个空行.

换句话说,两个导入之间缺少空白行:

import re

from bs4 import BeautifulSoup

Run Code Online (Sandbox Code Playgroud)

问题是:是否可以告诉Pycharm遵循PEP8指南并在自动导入的不同导入类型的行之间插入换行符？

作为一种解决方法,我在正确组织导入之后调用Optimize Imports.

python import pep8 static-code-analysis pycharm

16
推荐指数

1
解决办法

1053
查看次数

使用lxml来解析namepaced HTML？

这让我完全疯了,我已经挣扎了好几个小时.任何帮助将非常感激.

我正在使用PyQuery 1.2.9(它构建在它之上lxml)来抓取这个URL.我只想获得该.linkoutlist部分中所有链接的列表.

这是我的全部要求:

response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links

Run Code Online (Sandbox Code Playgroud)

但是返回一个空数组.如果我使用此查询:

links = doc('#maincontent .linkoutlist')

Run Code Online (Sandbox Code Playgroud)

然后我得到这个HTML:

<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
   <h4>Full Text Sources</h4>
   <ul>
      <li><a title="Full text at publisher's site" href="http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&amp;volume=19&amp;issue=3&amp;spage=125" ref="itool=Abstract&amp;PrId=3159&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Lippincott Williams &amp; Wilkins</a></li>
      <li><a href="http://ovidsp.ovid.com/ovidweb.cgi?T=JS&amp;PAGE=linkout&amp;SEARCH=15107654.ui" ref="itool=Abstract&amp;PrId=3682&amp;uid=15107654&amp;db=pubmed&amp;log$=linkoutlink&amp;nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
   </ul>
   <h4>Other Literature Sources</h4>
   ...
</div>

Run Code Online (Sandbox Code Playgroud)

所以父选择器确实返回带有大量<a>标签的HTML .这似乎也是有效的HTML.

更多的实验表明lxml xmlns由于某种原因不喜欢开放div上的属性.

我如何在lxml中忽略它,并像普通HTML一样解析它？

更新:尝试ns_clean,仍然失败:

    parser = etree.XMLParser(ns_clean=True)
    tree = etree.parse(StringIO(response.content), …

Run Code Online (Sandbox Code Playgroud)

html python lxml html-parsing pyquery

16
推荐指数

1
解决办法

304
查看次数

request.post的自定义JSONEncoder

我正在为REST API编写包装器并使用请求模块.

方法.json()的响应对象转移**kwargs到json.loads()功能,这样我就可以很容易地使用自定义JSON解码器和,即透明UNIX纪元时间戳转换为datetime.datetime对象.

有没有办法在Request对象中使用自定义JSON编码器？似乎我只能使用参数json,但无法找到如何使用自定义JSON编码器.

python python-requests

16
推荐指数

1
解决办法

2564
查看次数

使用滚动查找所有元素

找到页面上滚动的所有元素的最可靠和有效的方法是什么？

目前,我正在考虑使用element.all()与filter()比较height和scrollHeight属性值:

element.all(by.xpath("//*")).filter(function (elm) {
    return protractor.promise.all([
        elm.getAttribute("height"),
        elm.getAttribute("scrollHeight")
    ]).then(function (heights) { 
        return heights[1] > heights[0];
    });
});

Run Code Online (Sandbox Code Playgroud)

但我不确定这种方法的正确性和性能.

javascript selenium scroll selenium-webdriver protractor

16
推荐指数

1
解决办法

469
查看次数

Scrapy壳和Scrapy飞溅

我们一直在使用scrapy-splash中间件通过在Splashdocker容器内运行的javascript引擎传递已删除的HTML源代码.

如果我们想在spider中使用Splash,我们配置几个必需的项目设置并产生一个Request指定特定的meta参数:

yield Request(url, self.parse_result, meta={
    'splash': {
        'args': {
            # set rendering arguments here
            'html': 1,
            'png': 1,

            # 'url' is prefilled from request url
        },

        # optional parameters
        'endpoint': 'render.json',  # optional; default is render.json
        'splash_url': '<url>',      # overrides SPLASH_URL
        'slot_policy': scrapyjs.SlotPolicy.PER_DOMAIN,
    }
})

Run Code Online (Sandbox Code Playgroud)

这有助于记录.但是,我们如何scrapy-splash在Scrapy Shell中使用？

scrapy web-scraping scrapy-shell scrapy-splash splash-js-render

16
推荐指数

2
解决办法

7529
查看次数

标签统计

html ×2

html-parsing ×2

web-scraping ×2

beautifulsoup ×1

local-storage ×1

lxml ×1

package-managers ×1

pep8 ×1

performance ×1

pip ×1

pypi ×1

python-requests ×1

scrapy-shell ×1

scrapy-spider ×1

scrapy-splash ×1

selenium-webdriver ×1

splash-js-render ×1

static-code-analysis ×1

«
1
…
11
12
13
14
15
…
89
»