有没有办法使用 RSelenium 最大化浏览器窗口?
我当前的代码是:
scrape_url <- "https://[...]"
eCaps <- list(firefoxOptions = list(
args = list('--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"')
))
rD <- RSelenium::rsDriver(browser="firefox", port=4546L, verbose=F, chromever="87.0.4280.20",
extraCapabilities = eCaps)
remDr <- rD[["client"]]
remDr$navigate(scrape_url)
Run Code Online (Sandbox Code Playgroud) 我正在尝试从此网页抓取数据:海上交通
我确实尝试了 python 和 Selenium 中的正常抓取,但我无法找出任何目标数据。(纬度/经度/速度)
是否有我缺少的特殊格式?
这是我开始的代码
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument('--incognito')
options.add_argument('--headless')
driver = webdriver.Chrome("C:/webdrivers/chromedriver.exe", options=options)
page = driver.page_source
Run Code Online (Sandbox Code Playgroud)
但是通过使用 CTRL + FI 进行简单的文本搜索找不到任何令人满意的内容。
知道如何把它刮下来吗?
谢谢
我有一个 (gif) 图像的链接,通过“在新选项卡中打开”手动获取。我希望 Puppeteer 打开图像,然后将其保存到文件中。如果在普通浏览器中执行此操作,我会单击右键并从上下文菜单中选择“保存”。在 Puppeteer 中是否有一种简单的方法来执行此操作?
当我尝试使用请求从网页中抓取某些字段时,我遇到了如下所示的外部内容,我找不到任何从中获取数据的想法。以下是我收到的回复的一小部分:
I: Qc[
j~O~_
]S6gMWNougj~Ougp_{
hr[
ogL>i
]OqNotnYr=nQHOGirKugLKngL[
Kh
][
uiMpnTnNpSYR: QIZSXNxNpOq_MRnTnN5Nn|nV[
_SNotnOIh~Rn|9 RIFnQHOuh6Smg\[
S^\qxf\: sY8OKjL[
yhMVnTnO__
]RnQHOYhZ_5NotnRn|
}TYFnQHOIf
]W: NotnVZSZY59nQHOuh5
}uh8Wq_J_{
hqSmgLZnTnOTg~NxNpOmiLmNotnRnNxNp>8 gr[
~NotnW5>
]XZ: MQJ6OV5mGWZ|lXnNxNrqz[
LK9WL[
xf\:
}i\[
Run Code Online (Sandbox Code Playgroud)
我想知道是否有任何方法可以将内容转换为常规 html 或 json。
这是这些元素中应该包含的一些地址:
Franklin St
Great Rd
Nonset Path
Run Code Online (Sandbox Code Playgroud) 我正在使用带有无法检测到的 chromedriver 的 selenium-wire,当我进入某个网站时,它给我:“您与此网站的连接不安全”,并且网站地址中的https被交叉,并且它说证书是无效的。然而,该网站的证书并非无效。当我在普通浏览器上进入该网站时,它可以正常工作。我注意到所有 https 网站上都发生这种情况,即https://httpbin.org/headers和https://google.com/等。
import seleniumwire.undetected_chromedriver as uc
if __name__ == '__main__':
options = uc.ChromeOptions()
driver = uc.Chrome(
options=options,
seleniumwire_options={}
)
driver.get('https://httpbin.org/headers')
Run Code Online (Sandbox Code Playgroud)
这不会给我弹出窗口或任何东西,我仍然可以正常使用该网站,但我想修复它。
我该如何解决这个问题?
python selenium google-chrome web-scraping selenium-chromedriver
我正在尝试抓取以下页面:
http://mywebsite.com
特别是,我想获取每个条目的名称。我注意到我感兴趣的文本始终位于(MY TEXT)这两个标签的中间: <div class="title"> <a href="your text"> MY TEXT </a>
我知道如何单独搜索这些标签:
#load libraries
library(rvest)
library(httr)
library(XML)
library(rvest)
# set up page
url<-"https://www.mywebsite.com"
page <-read_html(url)
#option 1
b = page %>% html_nodes("title")
option1 <- b %>% html_text() %>% strsplit("\\n")
#option 2
b = page %>% html_nodes("a")
option2 <- b %>% html_text() %>% strsplit("\\n")
Run Code Online (Sandbox Code Playgroud)
有什么方法可以指定“html_nodes”参数,以便它在“我的文本”上拾取 - 即在 <div class="title">和之间刮擦</a>:
<div class="title"> <a href="your text"> MY TEXT </a>
Run Code Online (Sandbox Code Playgroud) 目标:我想检索特定电子商务网站上发布的订单绩效数据。由于每个订单绩效的这些数据分布在多个页面上,因此我们希望提取每个页面的信息,并最终将它们汇总为单个项目或记录。
\n我浏览了官方文档和其他类似的质量检查并找到了一些。\n从这些信息中,我了解到可以通过使用 cb_kwargs 来实现这一目标。\n但是,我无法理解什么下面的代码是错误的。
\n[python - 使用 scrapy 解释回调和 cb_kwargs - 堆栈\n溢出]\n(使用 scrapy 解释回调和 cb_kwargs)
\n[python - Scrapy 中每个项目有多个页面。\n(/sf/ask/1554131351/?noredirect=1&lq=1)
\n程序运行,但 csv 不输出任何内容,如下图所示。\n在此处输入图像描述
\n订单结果页面每页包含 30 个商品的信息。\n我想首先检索每个商品的所有注册日期(仅在第一页上列出),然后从那里移至每个产品页面以检索详细信息,然后然后一次将这些信息存储一项。
\n我是一个初学者,3个月前开始用Python编写代码。\n所以我可能对类等的基本理解存在一些问题。\n如果你能在我们讨论时向我指出这一点,我将不胜感激。\n官方文档scrapy对初学者来说太不友好了,我很难用它。
\n def parse_firstpage_item(self, response): \n request = scrapy.Request(\n url=response.url,\n callback=self.parse_productpage_item,\n cb_kwargs=dict(product_URL=\'//*[@id="buyeritemtable"]/div/ul/li[2]/p[1]/a\'))\n \n loader = ItemLoader(item = BuymaResearchtoolItem(), response = response)\n \n loader.add_xpath("Conversion_date", \'//*[@id="buyeritemtable"]/div/ul/li[2]/p[3]/text()\')\n \n yield loader.load_item()\n \n \n def parse_productpage_item(self, response, product_URL): \n \n loader = ItemLoader(item = BuymaResearchtoolItem(), response …Run Code Online (Sandbox Code Playgroud) 我正在检查一堆网站响应状态并将它们导出到 CSV 文件。有几个网站没有找到网站DNSLookupError,也没有在 CSV 文件中存储任何内容。如何将消息与 URL 一起存储到 CSV 中?DNSLookupError
def parse(self, response):
yield {
'URL': response.url,
'Status': response.status
}
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用 python 的请求模块来抓取在网站上生成图表的数据。
我的代码目前如下所示:
# load modules
import os
import json
import requests as r
# url to send the call to
postURL = <insert website>
# utiliz get to pull cookie data
cookie_intel = r.get(postURL, verify = False)
# get cookies
search_cookies = cookie_intel.cookies
#### Request Information ####
# API request data
post_data = <insert request json>
# header information
headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"}
# results
results_post = r.post(postURL, …Run Code Online (Sandbox Code Playgroud) 有没有更简单的方法可以从此网址的html中查找坐标= https://www.sreality.cz/detail/prodej/byt/1+kk/praha-zizkov-krasova/151897164
我检查了该网站,但到目前为止似乎没有任何坐标。该网站正在使用mapy.cz
我尝试将地址转换为坐标,但坐标有时会关闭。
这是我尝试过的:
address = 'praha zizkov krasova'
url = 'https://nominatim.openstreetmap.org/search/' + urllib.parse.quote(address) +'?format=json'
response = requests.get(url).json()
print(response[0]["lat"])
print(response[0]["lon"])
Run Code Online (Sandbox Code Playgroud) web-scraping ×10
python ×6
selenium ×3
python-3.x ×2
r ×2
scrapy ×2
html ×1
javascript ×1
puppeteer ×1
rselenium ×1
rvest ×1
web-crawler ×1