标签: web-scraping

Python:在Selenium Google ChromeDriver中禁用图片

我花了很多时间来搜索这个.在一天结束时,我结合了一些答案,它的确有效.我分享了我的答案,如果有人编辑它或者为我们提供更简单的方法,我会很感激.

1- 在Selenium中禁用图像的答案Google ChromeDriver适用于Java.所以我们应该在Python中做同样的事情:

opt = webdriver.ChromeOptions()
opt.add_extension("Block-image_v1.1.crx")
browser = webdriver.Chrome(chrome_options=opt)

Run Code Online (Sandbox Code Playgroud)

2-但是下载"Block-image_v1.1.crx"有点棘手,因为没有直接的方法可以做到这一点.为此目的,而不是去:https://chrome.google.com/webstore/detail/block-image/pehaalcefcjfccdpbckoablngfkfgfgj

你可以去http://chrome-extension-downloader.com/ 并在那里粘贴扩展URL以便能够下载扩展文件.

3-然后,您将能够将上述代码与您下载的扩展文件的路径一起使用.

python selenium google-chrome web-crawler web-scraping

1ma*_*man

2017 05-23

38
推荐指数

1
解决办法

3万
查看次数

单击Scrapy中的按钮

我正在使用Scrapy抓取网页.当您点击某个按钮时,我只需弹出一些我需要的信息(当然,点击后也会出现在HTML代码中).

我发现Scrapy可以处理的形式(如登录)如图所示这里.但问题是没有形式可以填写,所以这不是我需要的.

如何只需单击一个按钮,然后显示我需要的信息？

我是否必须使用像mechanize或lxml这样的外部库？

python web-crawler scrapy web-scraping

nae*_*aeg

lucky-day

37
推荐指数

2
解决办法

4万
查看次数

使用Scrapy刮擦JSON响应

如何使用Scrapy来抓取返回JSON的Web请求？例如,JSON看起来像这样:

{
    "firstName": "John",
    "lastName": "Smith",
    "age": 25,
    "address": {
        "streetAddress": "21 2nd Street",
        "city": "New York",
        "state": "NY",
        "postalCode": "10021"
    },
    "phoneNumber": [
        {
            "type": "home",
            "number": "212 555-1234"
        },
        {
            "type": "fax",
            "number": "646 555-4567"
        }
    ]
}

Run Code Online (Sandbox Code Playgroud)

我将寻找刮取特定项目(例如name,fax在上面)并保存到csv.

python json scrapy web-scraping

Tho*_*roy

2015 10-04

37
推荐指数

2
解决办法

3万
查看次数

刮刮:SSL:http://en.wikipedia.org的CERTIFICATE_VERIFY_FAILED错误

我正在练习'Web Scraping with Python'的代码,我一直有这个证书问题:

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re

pages = set()
def getLinks(pageUrl):
    global pages
    html = urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj = BeautifulSoup(html)
    for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                #We have encountered a new page
                newPage = link.attrs['href'] 
                print(newPage) 
                pages.add(newPage) 
                getLinks(newPage)
getLinks("")

Run Code Online (Sandbox Code Playgroud)

错误是:

  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1319, in do_open
    raise URLError(err)
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1049)>

Run Code Online (Sandbox Code Playgroud)

顺便说一句,我也在练习scrapy,但一直都在解决问题:找不到命令:scrapy(我在网上尝试过各种解决方案,但都没有用......真的很令人沮丧)

python beautifulsoup ssl-certificate scrapy web-scraping

Cat*_*e4j

2018 05-09

37
推荐指数

13
解决办法

4万
查看次数