标签: web-scraping

使用 RSelenium 最大化浏览器窗口

有没有办法使用 RSelenium 最大化浏览器窗口?

我当前的代码是:

scrape_url <- "https://[...]"

eCaps <- list(firefoxOptions = list(
    args = list('--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"')
))
    
rD <- RSelenium::rsDriver(browser="firefox", port=4546L, verbose=F, chromever="87.0.4280.20",
                              extraCapabilities = eCaps)
    
remDr <- rD[["client"]]
remDr$navigate(scrape_url)
Run Code Online (Sandbox Code Playgroud)

selenium r web-scraping rselenium rvest

0
推荐指数
1
解决办法
417
查看次数

从海洋交通页面抓取数据

我正在尝试从此网页抓取数据:海上交通

我确实尝试了 python 和 Selenium 中的正常抓取,但我无法找出任何目标数据。(纬度/经度/速度)

在此输入图像描述

是否有我缺少的特殊格式?

这是我开始的代码

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument('--incognito')
options.add_argument('--headless') 
driver = webdriver.Chrome("C:/webdrivers/chromedriver.exe", options=options)
page = driver.page_source
Run Code Online (Sandbox Code Playgroud)

但是通过使用 CTRL + FI 进行简单的文本搜索找不到任何令人满意的内容。

知道如何把它刮下来吗?

谢谢

python selenium web-scraping

0
推荐指数
1
解决办法
2344
查看次数

Puppeteer 保存在浏览器中打开的图像

我有一个 (gif) 图像的链接,通过“在新选项卡中打开”手动获取。我希望 Puppeteer 打开图像,然后将其保存到文件中。如果在普通浏览器中执行此操作,我会单击右键并从上下文菜单中选择“保存”。在 Puppeteer 中是否有一种简单的方法来执行此操作?

javascript web-scraping google-chrome-headless puppeteer

0
推荐指数
1
解决办法
3677
查看次数

无法从包含非常规内容的网页中获取某些字段

当我尝试使用请求从网页中抓取某些字段时,我遇到了如下所示的外部内容,我找不到任何从中获取数据的想法。以下是我收到的回复的一小部分:

    I: Qc[
    j~O~_
]S6gMWNougj~Ougp_{
    hr[
        ogL>i
    ]OqNotnYr=nQHOGirKugLKngL[
        Kh
    ][
        uiMpnTnNpSYR: QIZSXNxNpOq_MRnTnN5Nn|nV[
            _SNotnOIh~Rn|9 RIFnQHOuh6Smg\[
                S^\qxf\: sY8OKjL[
                    yhMVnTnO__
                ]RnQHOYhZ_5NotnRn|
            }TYFnQHOIf
        ]W: NotnVZSZY59nQHOuh5
    }uh8Wq_J_{
        hqSmgLZnTnOTg~NxNpOmiLmNotnRnNxNp>8 gr[
            ~NotnW5>
        ]XZ: MQJ6OV5mGWZ|lXnNxNrqz[
            LK9WL[
                xf\:
            }i\[
Run Code Online (Sandbox Code Playgroud)

我想知道是否有任何方法可以将内容转换为常规 html 或 json。

这是这些元素中应该包含的一些地址:

Franklin St
Great Rd
Nonset Path
Run Code Online (Sandbox Code Playgroud)

python web-scraping python-3.x python-requests

0
推荐指数
1
解决办法
460
查看次数

Selenium-Wire 您的连接不安全

我正在使用带有无法检测到的 chromedriver 的 selenium-wire,当我进入某个网站时,它给我:“您与此网站的连接不安全”,并且网站地址中的https被交叉,并且它说证书是无效的。然而,该网站的证书并非无效。当我在普通浏览器上进入该网站时,它可以正常工作。我注意到所有 https 网站上都发生这种情况,即https://httpbin.org/headershttps://google.com/等。

import seleniumwire.undetected_chromedriver as uc
if __name__ == '__main__':
    options = uc.ChromeOptions()
    driver = uc.Chrome(
        options=options,
        seleniumwire_options={}
    )

    driver.get('https://httpbin.org/headers')
Run Code Online (Sandbox Code Playgroud)

这不会给我弹出窗口或任何东西,我仍然可以正常使用该网站,但我想修复它。
我该如何解决这个问题?

python selenium google-chrome web-scraping selenium-chromedriver

0
推荐指数
1
解决办法
1万
查看次数

两个标签之间的网页抓取

我正在尝试抓取以下页面:

http://mywebsite.com

特别是,我想获取每个条目的名称。我注意到我感兴趣的文本始终位于(MY TEXT)这两个标签的中间: <div class="title"> <a href="your text"> MY TEXT </a>

我知道如何单独搜索这些标签:

#load libraries 
library(rvest)
library(httr)
library(XML)
library(rvest)

# set up page
url<-"https://www.mywebsite.com"
page <-read_html(url)

#option 1
b = page %>% html_nodes("title")

option1 <- b %>% html_text() %>% strsplit("\\n")

#option 2
b = page %>% html_nodes("a")

option2 <- b %>% html_text() %>% strsplit("\\n")
Run Code Online (Sandbox Code Playgroud)

有什么方法可以指定“html_nodes”参数,以便它在“我的文本”上拾取 - 即在 <div class="title">和之间刮擦</a>

 <div class="title"> <a href="your text"> MY TEXT </a>
Run Code Online (Sandbox Code Playgroud)

html r web-scraping

0
推荐指数
1
解决办法
105
查看次数

我想使用Scrapy(了解cb_kwargs)按项目总结多个页面的信息

目标:我想检索特定电子商务网站上发布的订单绩效数据。由于每个订单绩效的这些数据分布在多个页面上,因此我们希望提取每个页面的信息,并最终将它们汇总为单个项目或记录。

\n

我浏览了官方文档和其他类似的质量检查并找到了一些。\n从这些信息中,我了解到可以通过使用 cb_kwargs 来实现这一目标。\n但是,我无法理解什么下面的代码是错误的。

\n
    \n
  • [python - 使用 scrapy 解释回调和 cb_kwargs - 堆栈\n溢出]\n(使用 scrapy 解释回调和 cb_kwargs

    \n
  • \n
  • [python - Scrapy 中每个项目有多个页面。\n(/sf/ask/1554131351/?noredirect=1&lq=1)

    \n
  • \n
\n

程序运行,但 csv 不输出任何内容,如下图所示。\n在此处输入图像描述

\n

订单结果页面每页包含 30 个商品的信息。\n我想首先检索每个商品的所有注册日期(仅在第一页上列出),然后从那里移至每个产品页面以检索详细信息,然后然后一次将这些信息存储一项。

\n

我是一个初学者,3个月前开始用Python编写代码。\n所以我可能对类等的基本理解存在一些问题。\n如果你能在我们讨论时向我指出这一点,我将不胜感激。\n官方文档scrapy对初学者来说太不友好了,我很难用它。

\n
 def parse_firstpage_item(self, response): \n            request = scrapy.Request(\n                url=response.url,\n                callback=self.parse_productpage_item,\n                cb_kwargs=dict(product_URL=\'//*[@id="buyeritemtable"]/div/ul/li[2]/p[1]/a\'))\n    \n            loader = ItemLoader(item = BuymaResearchtoolItem(), response = response)\n    \n            loader.add_xpath("Conversion_date", \'//*[@id="buyeritemtable"]/div/ul/li[2]/p[3]/text()\')\n    \n            yield loader.load_item()\n    \n    \n        def parse_productpage_item(self, response, product_URL): \n    \n            loader = ItemLoader(item = BuymaResearchtoolItem(), response …
Run Code Online (Sandbox Code Playgroud)

python web-crawler scrapy web-scraping

0
推荐指数
1
解决办法
178
查看次数

如何处理Scrapy中的DNSLookupError?

我正在检查一堆网站响应状态并将它们导出到 CSV 文件。有几个网站没有找到网站DNSLookupError,也没有在 CSV 文件中存储任何内容。如何将消息与 URL 一起存储到 CSV 中?DNSLookupError

def parse(self, response):
    yield {
        'URL': response.url,
        'Status': response.status
    }
Run Code Online (Sandbox Code Playgroud)

scrapy web-scraping python-3.x scrapy-splash

0
推荐指数
1
解决办法
197
查看次数

生成图表的数据请求始终为空

我正在尝试使用 python 的请求模块来抓取在网站上生成图表的数据。

我的代码目前如下所示:

# load modules
import os
import json
import requests as r

# url to send the call to
postURL = <insert website>

# utiliz get to pull cookie data
cookie_intel = r.get(postURL, verify = False)

# get cookies
search_cookies = cookie_intel.cookies

#### Request Information ####

# API request data
post_data = <insert request json>

# header information
headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"}

# results 
results_post = r.post(postURL, …
Run Code Online (Sandbox Code Playgroud)

python web-scraping python-requests

0
推荐指数
1
解决办法
80
查看次数

通过检查 html 查找纬度和经度

有没有更简单的方法可以从此网址的html中查找坐标= https://www.sreality.cz/detail/prodej/byt/1+kk/praha-zizkov-krasova/151897164

我检查了该网站,但到目前为止似乎没有任何坐标。该网站正在使用mapy.cz

我尝试将地址转换为坐标,但坐标有时会关闭。

这是我尝试过的:

address = 'praha zizkov krasova'
url = 'https://nominatim.openstreetmap.org/search/' + urllib.parse.quote(address) +'?format=json'

response = requests.get(url).json()
print(response[0]["lat"])
print(response[0]["lon"])
Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-scraping

0
推荐指数
1
解决办法
82
查看次数