标签: web-scraping

使用 RSelenium 最大化浏览器窗口

有没有办法使用 RSelenium 最大化浏览器窗口？

我当前的代码是：

scrape_url <- "https://[...]"

eCaps <- list(firefoxOptions = list(
    args = list('--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"')
))
    
rD <- RSelenium::rsDriver(browser="firefox", port=4546L, verbose=F, chromever="87.0.4280.20",
                              extraCapabilities = eCaps)
    
remDr <- rD[["client"]]
remDr$navigate(scrape_url)

Run Code Online (Sandbox Code Playgroud)

selenium r web-scraping rselenium rvest

anp*_*ami

lucky-day

0
推荐指数

1
解决办法

417
查看次数

从海洋交通页面抓取数据

我正在尝试从此网页抓取数据：海上交通

我确实尝试了 python 和 Selenium 中的正常抓取，但我无法找出任何目标数据。（纬度/经度/速度）

是否有我缺少的特殊格式？

这是我开始的代码

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument('--incognito')
options.add_argument('--headless') 
driver = webdriver.Chrome("C:/webdrivers/chromedriver.exe", options=options)
page = driver.page_source

Run Code Online (Sandbox Code Playgroud)

但是通过使用 CTRL + FI 进行简单的文本搜索找不到任何令人满意的内容。

知道如何把它刮下来吗？

谢谢

python selenium web-scraping

M-W*_*ane

lucky-day

0
推荐指数

1
解决办法

2344
查看次数

Puppeteer 保存在浏览器中打开的图像

我有一个 (gif) 图像的链接，通过“在新选项卡中打开”手动获取。我希望 Puppeteer 打开图像，然后将其保存到文件中。如果在普通浏览器中执行此操作，我会单击右键并从上下文菜单中选择“保存”。在 Puppeteer 中是否有一种简单的方法来执行此操作？

javascript web-scraping google-chrome-headless puppeteer

Eug*_*sky

lucky-day

0
推荐指数

1
解决办法

3677
查看次数

无法从包含非常规内容的网页中获取某些字段

当我尝试使用请求从网页中抓取某些字段时，我遇到了如下所示的外部内容，我找不到任何从中获取数据的想法。以下是我收到的回复的一小部分：

    I: Qc[
    j~O~_
]S6gMWNougj~Ougp_{
    hr[
        ogL>i
    ]OqNotnYr=nQHOGirKugLKngL[
        Kh
    ][
        uiMpnTnNpSYR: QIZSXNxNpOq_MRnTnN5Nn|nV[
            _SNotnOIh~Rn|9 RIFnQHOuh6Smg\[
                S^\qxf\: sY8OKjL[
                    yhMVnTnO__
                ]RnQHOYhZ_5NotnRn|
            }TYFnQHOIf
        ]W: NotnVZSZY59nQHOuh5
    }uh8Wq_J_{
        hqSmgLZnTnOTg~NxNpOmiLmNotnRnNxNp>8 gr[
            ~NotnW5>
        ]XZ: MQJ6OV5mGWZ|lXnNxNrqz[
            LK9WL[
                xf\:
            }i\[

Run Code Online (Sandbox Code Playgroud)

我想知道是否有任何方法可以将内容转换为常规 html 或 json。

这是这些元素中应该包含的一些地址：

Franklin St
Great Rd
Nonset Path

Run Code Online (Sandbox Code Playgroud)

python web-scraping python-3.x python-requests

MIT*_*THU

2022 11-17

0
推荐指数

1
解决办法

460
查看次数

我正在使用带有无法检测到的 chromedriver 的 selenium-wire，当我进入某个网站时，它给我：“您与此网站的连接不安全”，并且网站地址中的https被交叉，并且它说证书是无效的。然而，该网站的证书并非无效。当我在普通浏览器上进入该网站时，它可以正常工作。我注意到所有 https 网站上都发生这种情况，即https://httpbin.org/headers和https://google.com/等。

import seleniumwire.undetected_chromedriver as uc
if __name__ == '__main__':
    options = uc.ChromeOptions()
    driver = uc.Chrome(
        options=options,
        seleniumwire_options={}
    )

    driver.get('https://httpbin.org/headers')

Run Code Online (Sandbox Code Playgroud)

这不会给我弹出窗口或任何东西，我仍然可以正常使用该网站，但我想修复它。
我该如何解决这个问题？

python selenium google-chrome web-scraping selenium-chromedriver

作者

lucky-day

0
推荐指数

1
解决办法

1万
查看次数

两个标签之间的网页抓取

我正在尝试抓取以下页面：

http://mywebsite.com

特别是，我想获取每个条目的名称。我注意到我感兴趣的文本始终位于（MY TEXT）这两个标签的中间： <div class="title"> <a href="your text"> MY TEXT </a>

我知道如何单独搜索这些标签：

#load libraries 
library(rvest)
library(httr)
library(XML)
library(rvest)

# set up page
url<-"https://www.mywebsite.com"
page <-read_html(url)

#option 1
b = page %>% html_nodes("title")

option1 <- b %>% html_text() %>% strsplit("\\n")

#option 2
b = page %>% html_nodes("a")

option2 <- b %>% html_text() %>% strsplit("\\n")

Run Code Online (Sandbox Code Playgroud)

有什么方法可以指定“html_nodes”参数，以便它在“我的文本”上拾取 - 即在 <div class="title">和之间刮擦</a>：

 <div class="title"> <a href="your text"> MY TEXT </a>

Run Code Online (Sandbox Code Playgroud)

html r web-scraping

sta*_*oob

2022 07-27

0
推荐指数

1
解决办法

105
查看次数

我想使用Scrapy（了解cb_kwargs）按项目总结多个页面的信息

目标：我想检索特定电子商务网站上发布的订单绩效数据。由于每个订单绩效的这些数据分布在多个页面上，因此我们希望提取每个页面的信息，并最终将它们汇总为单个项目或记录。

我浏览了官方文档和其他类似的质量检查并找到了一些。\n从这些信息中，我了解到可以通过使用 cb_kwargs 来实现这一目标。\n但是，我无法理解什么下面的代码是错误的。

[python - 使用 scrapy 解释回调和 cb_kwargs - 堆栈\n溢出]\n(使用 scrapy 解释回调和 cb_kwargs）
\n
[python - Scrapy 中每个项目有多个页面。\n(/sf/ask/1554131351/?noredirect=1&lq=1)
\n

程序运行，但 csv 不输出任何内容，如下图所示。\n在此处输入图像描述

订单结果页面每页包含 30 个商品的信息。\n我想首先检索每个商品的所有注册日期（仅在第一页上列出），然后从那里移至每个产品页面以检索详细信息，然后然后一次将这些信息存储一项。

我是一个初学者，3个月前开始用Python编写代码。\n所以我可能对类等的基本理解存在一些问题。\n如果你能在我们讨论时向我指出这一点，我将不胜感激。\n官方文档scrapy对初学者来说太不友好了，我很难用它。

 def parse_firstpage_item(self, response): \n            request = scrapy.Request(\n                url=response.url,\n                callback=self.parse_productpage_item,\n                cb_kwargs=dict(product_URL=\'//*[@id="buyeritemtable"]/div/ul/li[2]/p[1]/a\'))\n    \n            loader = ItemLoader(item = BuymaResearchtoolItem(), response = response)\n    \n            loader.add_xpath("Conversion_date", \'//*[@id="buyeritemtable"]/div/ul/li[2]/p[3]/text()\')\n    \n            yield loader.load_item()\n    \n    \n        def parse_productpage_item(self, response, product_URL): \n    \n            loader = ItemLoader(item = BuymaResearchtoolItem(), response …

Run Code Online (Sandbox Code Playgroud)

python web-crawler scrapy web-scraping

K_M*_*_MM

2022 09-08

0
推荐指数

1
解决办法

178
查看次数

如何处理Scrapy中的DNSLookupError？

我正在检查一堆网站响应状态并将它们导出到 CSV 文件。有几个网站没有找到网站DNSLookupError，也没有在 CSV 文件中存储任何内容。如何将消息与 URL 一起存储到 CSV 中？DNSLookupError

def parse(self, response): yield { 'URL': response.url, 'Status': response.status }
Run Code Online (Sandbox Code Playgroud)

scrapy web-scraping python-3.x scrapy-splash

Rai*_*lam

lucky-day

0
推荐指数

1
解决办法

197
查看次数

生成图表的数据请求始终为空

我正在尝试使用 python 的请求模块来抓取在网站上生成图表的数据。

我的代码目前如下所示：

# load modules import os import json import requests as r # url to send the call to postURL = <insert website> # utiliz get to pull cookie data cookie_intel = r.get(postURL, verify = False) # get cookies search_cookies = cookie_intel.cookies #### Request Information #### # API request data post_data = <insert request json> # header information headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"} # results results_post = r.post(postURL, …
Run Code Online (Sandbox Code Playgroud)

python web-scraping python-requests

fab*_*bla

2023 02-10

0
推荐指数

1
解决办法

80
查看次数

通过检查 html 查找纬度和经度

有没有更简单的方法可以从此网址的html中查找坐标= https://www.sreality.cz/detail/prodej/byt/1+kk/praha-zizkov-krasova/151897164

我检查了该网站，但到目前为止似乎没有任何坐标。该网站正在使用mapy.cz

我尝试将地址转换为坐标，但坐标有时会关闭。

这是我尝试过的：

address = 'praha zizkov krasova' url = 'https://nominatim.openstreetmap.org/search/' + urllib.parse.quote(address) +'?format=json' response = requests.get(url).json() print(response[0]["lat"]) print(response[0]["lon"])
Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-scraping

Red*_*a S

lucky-day

0
推荐指数

1
解决办法

82
查看次数

标签统计

web-scraping ×10

python ×6

selenium ×3

python-3.x ×2

python-requests ×2

r ×2

scrapy ×2

beautifulsoup ×1

google-chrome ×1

google-chrome-headless ×1

html ×1

javascript ×1

puppeteer ×1

rselenium ×1

rvest ×1

scrapy-splash ×1

selenium-chromedriver ×1

web-crawler ×1

标签 统计

标签统计