标签: web-scraping

使用 Python 登录 https 网站

我是在stackoverflow上发帖的新手，所以请不要咬！我不得不求助于记帐并寻求帮助，以避免再把我的头撞在桌子上......

我正在尝试使用 python 中的请求模块登录到以下网站https://account.socialbakers.com/login。似乎请求模块是要去的地方，但 session.post() 函数对我不起作用。我不知道这种类型的表格是否有什么独特之处，或者网站是 https://

登录表单如下：

<form action="/login" id="login-form" method="post" novalidate="">
        <big class="error-message">
         <big>
          <strong>
          </strong>
         </big>
        </big>
        <div class="item-full">
         <label for="">
          <span class="label-header">
           <span>
            Your e-mail address
           </span>
          </span>
          <input id="email" name="email" type="email"/>
         </label>
        </div>
        <div class="item-list">
         <div class="item-big">
          <label for="">
           <span class="label-header">
            <span>
             Password
            </span>
           </span>
           <input id="password" name="password" type="password"/>
          </label>
         </div>
         <div class="item-small">
          <button class="btn btn-green" type="submit">
           Login
          </button>
         </div>
        </div>
        <p>
         <a href="/email/reset-password">
          <strong>
           Lost password?
          </strong>
         </a>
        </p>
       </form>

Run Code Online (Sandbox Code Playgroud)

基于以下帖子如何使用 …

python web-scraping python-requests

hil*_*n92

2017 09-15

1
推荐指数

1
解决办法

6634
查看次数

如何使用 R 从网站上抓取网络表格

我正在尝试抓取从以下站点找到的表格： https://finance.yahoo.com/gainers?e=us

但是，我已经搜索了几种不同方法的答案，以从此处的站点抓取表格，但没有一种方法对我有用。

我试过了：

library(xml2)
url <- "https://finance.yahoo.com/gainers?e=us"
tbl <- read_html(url)

Run Code Online (Sandbox Code Playgroud)

还：

 library(XML)
 url <- "https://finance.yahoo.com/gainers?e=us"
 tbl <- readHTMLList(url)

Run Code Online (Sandbox Code Playgroud)

和其他包，例如rvest但是我无法显示表格！

html r web-scraping

Rim*_*ime

lucky-day

1
推荐指数

1
解决办法

434
查看次数

当在网页的“源代码”中不可见时，从 https://chenmed.wd1.myworkdayjobs.com/en-US/jencare/ 抓取和提取数据

我正在尝试编写一个自动 PHP 脚本来从 URL https://chenmed.wd1.myworkdayjobs.com/en 中抓取和提取所有“职位”（初级保健医师 - 潮水市场、初级保健医师 - 里士满市场等）-美国/jencare/

然而，这似乎并不简单，因为所需的数据在网页的源代码中并不直接可见。我还尝试检查不同浏览器的“开发人员工具->网络”，但找不到数据源。

任何帮助将不胜感激。

感谢和问候！

php web-crawler web-scraping data-extraction

Sam*_*Sam

lucky-day

1
推荐指数

1
解决办法

2284
查看次数

使用 rvest 从 Walmart 获取价格

我试图在 Selector Gadget 扩展程序的帮助下，通过 rvest 包从一些沃尔玛商店获取价格和库存状况。我能够获得商店的地址，但无法获得价格和库存状况。任何建议将不胜感激！

这是我到目前为止所做的

    library(dplyr)
    library(rvest)

    url <- read_html("http://www.walmart.com/store/25/search?query=50636282")

    selector_name<-".cs-secondary-copy"
    fnames <- html_nodes(x = url, css = selector_name) %>%
      html_text()
    fnames

    price <- html_nodes(x = url, css = ".sup") %>%
      html_text() %>% 
      as.numeric()
    price

    stock <- html_nodes(x = url, css = ".stockStatus-unavailable") %>%
      html_text()
    stock

Run Code Online (Sandbox Code Playgroud)

输出

    > fnames
    [1] "4820 S Clark St, Mexico, MO 65265"                   "Item availability is updated every day at midnight."
    > price
    numeric(0)
    > stock
    character(0)

Run Code Online (Sandbox Code Playgroud)

来自 Selector Gadget 的相关数据

    <span class="cs-secondary-copy">4820 S …

Run Code Online (Sandbox Code Playgroud)

r css-selectors web-scraping rvest

Tun*_*ung

lucky-day

1
推荐指数

1
解决办法

689
查看次数

Scrapy CrawlSpider 基于 start_urls 的动态规则？

我正在编写一个 Scrapy 抓取器，它使用 CrawlSpider 来抓取站点，查看其内部链接，并抓取任何外部链接（域与原始域不同的域的链接）的内容。

我设法用 2 条规则做到了这一点，但它们基于被抓取的站点的域。如果我想在多个网站上运行它，我会遇到一个问题，因为我不知道我目前在哪个“start_url”上，所以我无法适当地更改规则。

到目前为止，这是我想到的，它适用于一个网站，但我不确定如何将其应用于网站列表：

class HomepagesSpider(CrawlSpider):
    name = 'homepages'

    homepage = 'http://www.somesite.com'

    start_urls = [homepage]

    # strip http and www
    domain = homepage.replace('http://', '').replace('https://', '').replace('www.', '')
    domain = domain[:-1] if domain[-1] == '/' else domain

    rules = (
        Rule(LinkExtractor(allow_domains=(domain), deny_domains=()), callback='parse_internal', follow=True),
        Rule(LinkExtractor(allow_domains=(), deny_domains=(domain)), callback='parse_external', follow=False),
    )

    def parse_internal(self, response):

        # log internal page...

    def parse_external(self, response):

        # parse external page...

Run Code Online (Sandbox Code Playgroud)

这可能可以通过在调用刮刀时将 start_url 作为参数传递来完成，但我正在寻找一种在刮刀本身内以编程方式执行此操作的方法。

有任何想法吗？谢谢！

西蒙。

python web-crawler scrapy web-scraping scrapy-spider

Sim*_*mon

lucky-day

1
推荐指数

1
解决办法

1485
查看次数

从列表中删除 `\n`

我有一个列表，其中包含从在线网站上抓取的数据。名单是这样的

list1 = ['\nJob Description\n\nDESCRIPTION: Interacts with users and technical team members to analyze requirements and develop
technical design specifications.  Troubleshoot complex issues and make recommendations to improve efficiency and accurac
y. Interpret complex data, analyze results using statistical techniques and provide ongoing reports. Identify, analyze,
and interpret trends or patterns in complex data sets. Filter and "clean data, review reports, and performance indicator
s to locate and correct code problems. Work closely with management to prioritize business and information …

Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-scraping python-3.x

Moh*_*han

2017 04-09

1
推荐指数

1
解决办法

3万
查看次数

从 R 中的网站抓取表格

我试图使用 R 从以下链接中提取表格：https : //pubchem.ncbi.nlm.nih.gov/compound/1983#section=DrugBank-Interactions&fullscreen=true

我尝试了以下方法：

 url <- "https://pubchem.ncbi.nlm.nih.gov/compound/1983#section=DrugBank-Interactions&fullscreen=true"
require(XML)
url.table <- readHTMLTable(url, which = 1, header = FALSE, stringsAsFactors = FALSE)

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

     Error in (function (classes, fdef, mtable)  : 
 unable to find an inherited method for function ‘readHTMLTable’ for 
signature ‘"NULL"’
In addition: Warning message:
XML content does not seem to be XML: 
'https://pubchem.ncbi.nlm.nih.gov/compound/1983#section=DrugBank-
Interactions&fullscreen=true'

Run Code Online (Sandbox Code Playgroud)

我对网页抓取不太熟悉，有没有办法将上述链接中的表格提取到 R 中？另外我如何确定数据的存储格式；XML、JSON 等？

谢谢。

r web-scraping

Sam*_*r.y

2017 05-05

1
推荐指数

1
解决办法

936
查看次数

如何在 Owler 等网站的自动化中保留登录令牌？

我正在尝试为诸如angel.co 之类的各种网站开发一个抓取工具。我一直在为www.owler.com网站设计爬虫，因为当我们尝试访问有关公司的信息时，它需要通过邮件登录。

每次我们登录时，我们都会在电子邮件中获得一个新的登录令牌，该令牌将在一段时间后过期。那么，是否有任何适当的解决方案可以使用带有 Py 绑定的 Selenium 在浏览器会话中保留登录会话？

我只是在寻找处理此类情况的指南。已经尝试使用 Selenium 自动执行此任务，但这不是一种富有成效的方法。

python selenium scrapy web-scraping

aka*_*edi

2019 12-26

1
推荐指数

1
解决办法

1405
查看次数

获取一个网站的所有链接

嗨，我想创建一个迷你爬虫，但不使用Scrapy，

我创建了这样的东西：

response = requests.get(url)
homepage_link_list = []
soup = BeautifulSoup(response.content, 'lxml')
for link in soup.findAll("a"):
    if link.get("href"):
        homepage_link_list.append(link.get("href"))


link_list = []
for item in homepage_link_list:
    response = requests.get(item)
    soup = BeautifulSoup(response.content, 'lxml')
    for link in soup.findAll("a"):
        if link.get("href"):
            link_list.append(link.get("href"))

Run Code Online (Sandbox Code Playgroud)

虽然我遇到的问题是它只获取网页链接中的链接，但我怎样才能让它获取网站所有链接中的所有链接。

python beautifulsoup web-scraping python-requests

Bry*_*Bry

lucky-day

1
推荐指数

1
解决办法

4893
查看次数

使用 R 解析 HTML 数据

我有一个如下的 html 数据集，我想将其解析并转换为我可以使用的表格格式。

<!DOCTYPE html>
<html>

<head>
    <title>Page Title</title>
</head>

<body>
    <div class="brewery" id="brewery">
        <ul class="vcard simple">
            <li class="name"> Bradley Farm / RB Brew, LLC</li>
            <li class="address">317 Springtown Rd </li>
            <li class="address_2">New Paltz, NY 12561-3020 | <a href='http://www.google.com/maps/place/317 Springtown Rd++New Paltz+NY+United States' target='_blank'>Map</a> </li>
            <li class="telephone">Phone: (845) 255-8769</li>
            <li class="brewery_type">Type: Micro</li>
            <li class="url"><a href="http://www.raybradleyfarm.com" target="_blank">www.raybradleyfarm.com</a> </li>
        </ul>
        <ul class="vcard simple col2"></ul>
    </div>
    <div class="brewery">
        <ul class="vcard simple">
            <li class="name">(405) Brewing Co</li>
            <li class="address">1716 Topeka St </li>
            <li class="address_2">Norman, OK 73069-8224 …

Run Code Online (Sandbox Code Playgroud)

html r web-scraping rvest

SNT*_*SNT

lucky-day

1
推荐指数

1
解决办法

5463
查看次数