我正在使用一个非常简单的网络刮刀抓取23770个网页scrapy.我对scrapy甚至python都很陌生,但设法编写了一个完成这项工作的蜘蛛.然而,它真的很慢(爬行23770页大约需要28个小时).
我查看了scrapy网页和邮件列表stackoverflow,但我似乎无法找到编写快速爬虫的通用建议,这对于初学者来说是可以理解的.也许我的问题不是蜘蛛本身,而是我运行它的方式.欢迎所有建议!
我已经在下面列出了我的代码,如果需要的话.
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item, Field
import re
class Sale(Item):
Adresse = Field()
Pris = Field()
Salgsdato = Field()
SalgsType = Field()
KvmPris = Field()
Rum = Field()
Postnummer = Field()
Boligtype = Field()
Kvm = Field()
Bygget = Field()
class HouseSpider(BaseSpider):
name = 'House'
allowed_domains = ["http://boliga.dk/"]
start_urls = ['http://www.boliga.dk/salg/resultater?so=1&type=Villa&type=Ejerlejlighed&type=R%%C3%%A6kkehus&kom=&amt=&fraPostnr=&tilPostnr=&iPostnr=&gade=&min=&max=&byggetMin=&byggetMax=&minRooms=&maxRooms=&minSize=&maxSize=&minsaledate=1992&maxsaledate=today&kode=&p=%d' %n for n in xrange(1, 23770, 1)]
def parse(self, response):
hxs = HtmlXPathSelector(response) …Run Code Online (Sandbox Code Playgroud) 我正在编写一些测试来验证输入数据是否正确存储在本地存储中,如何从量角器测试中访问localStorage?
...
describe('vgPersist', function() {
it('Should save input data in local storage until form submitted', function() {
// Prepare Object and Open browser
var addOns = new AddOns();
addOns.get();
-> Clear localStorage
-> Get from localStorage
Run Code Online (Sandbox Code Playgroud)
你如何使用executeScript?我可以从executeScript获取数据吗?
Django我遇到了一个奇怪的事情,这是我的views.py:
def api(request):
return HttpResponse("%s %s" % (request.method,request.raw_post_data))
Run Code Online (Sandbox Code Playgroud)
现在我使用POSTMAN(谷歌浏览器的小应用程序)进行HTTP POST.
我将POSTMAN设置为在原始字段中使用'test'发出POST请求.
Django给我三个不同的东西(随机):
有时Django会在某个时候返回'GET',有时甚至没有:
AttributeError at /
'WSGIRequest' object has no attribute 'raw_post_data'
Request Method: GET
Request URL: https://api.mywebsiteurl.com/
Django Version: 1.6.2
Exception Type: AttributeError
Exception Value:
'WSGIRequest' object has no attribute 'raw_post_data'
Exception Location: /home/spice_dj/spice/views.py in api, line 17
Python Executable: /usr/bin/python
Python Version: 2.7.3
Python Path:
['/usr/local/lib/python2.7/dist-packages/South-0.8.4-py2.7.egg',
'/usr/lib/python2.7',
'/usr/lib/python2.7/plat-linux2',
'/usr/lib/python2.7/lib-tk',
'/usr/lib/python2.7/lib-old',
'/usr/lib/python2.7/lib-dynload',
'/usr/local/lib/python2.7/dist-packages',
'/usr/lib/python2.7/dist-packages',
'/home/spice_dj']
Server time: Wed, 12 Mar 2014 22:51:11 -0400
Run Code Online (Sandbox Code Playgroud)
当我清楚地发出POST请求时,为什么Django会回复我'GET'?
为什么它会给我这个错误?
为什么它不会返回我在原始字段中设置的"测试"?
对于每个python包,您可以指定分类器列表.其中有一个Topic分类器,它将包放在可以浏览PyPI的指定类别中.
例如,numpy有以下主题:
Topic :: Software Development
Topic :: Scientific/Engineering
Run Code Online (Sandbox Code Playgroud)
有没有办法按编程方式使用主题pip search或其他第三方库进行搜索?
我试图从页面中获取div id列表.当我打印出属性时,我会列出ID.
for tag in soup.find_all(class_="bookmark blurb group") :
print(tag.attrs)
Run Code Online (Sandbox Code Playgroud)
结果是:
{'id': 'bookmark_8199633', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_7744613', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_7338591', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_7338535', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
{'id': 'bookmark_4530078', 'role': 'article', 'class': ['bookmark', 'blurb', 'group']}
Run Code Online (Sandbox Code Playgroud)
所以我知道有些ID.但是,当我打印出tag.id时,我只得到一个"无"列表.我在这做错了什么?
请考虑以下代码:
from bs4 import BeautifulSoup
data = "<test>test text</test>"
soup = BeautifulSoup(data)
print(soup.find(text=re.compile(r'test$')))
Run Code Online (Sandbox Code Playgroud)
它缺少一条import re线,NameError没有它就会失败.
现在,我尝试使用PyCharm的自动导入功能:重点re和打击Alt+Enter,这将打开如下弹出:

现在,如果我选择Import 're'选项,Pycharm会在脚本顶部插入新的导入行:
import re
from bs4 import BeautifulSoup
data = "<test>test text</test>"
soup = BeautifulSoup(data)
print(soup.find(text=re.compile(r'test$')))
Run Code Online (Sandbox Code Playgroud)
看起来几乎不错,但它没有遵循PEP8导入指南:
应按以下顺序对导入进行分组:
标准库导入
相关的第三方进口
本地应用程序/库特定导入
您应该在每组导入之间添加一个空行.
换句话说,两个导入之间缺少空白行:
import re
from bs4 import BeautifulSoup
Run Code Online (Sandbox Code Playgroud)
问题是:是否可以告诉Pycharm遵循PEP8指南并在自动导入的不同导入类型的行之间插入换行符?
作为一种解决方法,我在正确组织导入之后调用Optimize Imports.
这让我完全疯了,我已经挣扎了好几个小时.任何帮助将非常感激.
我正在使用PyQuery 1.2.9(它构建在它之上lxml)来抓取这个URL.我只想获得该.linkoutlist部分中所有链接的列表.
这是我的全部要求:
response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links
Run Code Online (Sandbox Code Playgroud)
但是返回一个空数组.如果我使用此查询:
links = doc('#maincontent .linkoutlist')
Run Code Online (Sandbox Code Playgroud)
然后我得到这个HTML:
<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
<h4>Full Text Sources</h4>
<ul>
<li><a title="Full text at publisher's site" href="http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&volume=19&issue=3&spage=125" ref="itool=Abstract&PrId=3159&uid=15107654&db=pubmed&log$=linkoutlink&nlmid=8609061" target="_blank">Lippincott Williams & Wilkins</a></li>
<li><a href="http://ovidsp.ovid.com/ovidweb.cgi?T=JS&PAGE=linkout&SEARCH=15107654.ui" ref="itool=Abstract&PrId=3682&uid=15107654&db=pubmed&log$=linkoutlink&nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
</ul>
<h4>Other Literature Sources</h4>
...
</div>
Run Code Online (Sandbox Code Playgroud)
所以父选择器确实返回带有大量<a>标签的HTML .这似乎也是有效的HTML.
更多的实验表明lxml xmlns由于某种原因不喜欢开放div上的属性.
我如何在lxml中忽略它,并像普通HTML一样解析它?
更新:尝试ns_clean,仍然失败:
parser = etree.XMLParser(ns_clean=True)
tree = etree.parse(StringIO(response.content), …Run Code Online (Sandbox Code Playgroud) 找到页面上滚动的所有元素的最可靠和有效的方法是什么?
目前,我正在考虑使用element.all()与filter()比较height和scrollHeight属性值:
element.all(by.xpath("//*")).filter(function (elm) {
return protractor.promise.all([
elm.getAttribute("height"),
elm.getAttribute("scrollHeight")
]).then(function (heights) {
return heights[1] > heights[0];
});
});
Run Code Online (Sandbox Code Playgroud)
但我不确定这种方法的正确性和性能.
我们一直在使用scrapy-splash中间件通过在Splashdocker容器内运行的javascript引擎传递已删除的HTML源代码.
如果我们想在spider中使用Splash,我们配置几个必需的项目设置并产生一个Request指定特定的meta参数:
yield Request(url, self.parse_result, meta={
'splash': {
'args': {
# set rendering arguments here
'html': 1,
'png': 1,
# 'url' is prefilled from request url
},
# optional parameters
'endpoint': 'render.json', # optional; default is render.json
'splash_url': '<url>', # overrides SPLASH_URL
'slot_policy': scrapyjs.SlotPolicy.PER_DOMAIN,
}
})
Run Code Online (Sandbox Code Playgroud)
这有助于记录.但是,我们如何scrapy-splash在Scrapy Shell中使用?
scrapy web-scraping scrapy-shell scrapy-splash splash-js-render
python ×7
html ×2
html-parsing ×2
javascript ×2
protractor ×2
scrapy ×2
web-scraping ×2
angularjs ×1
django ×1
django-1.6 ×1
import ×1
lxml ×1
pep8 ×1
performance ×1
pip ×1
pycharm ×1
pypi ×1
pyquery ×1
scrapy-shell ×1
scroll ×1
selenium ×1
testing ×1