标签: beautifulsoup

HTTP 错误：解析网站时出现 403

所以我试图从这个网站http://dl.acm.org/dl.cfm进行解析。该网站不允许网络抓取工具，因此我得到了HTTP error: 403 forbidden.

我正在使用 python，所以我尝试机械化来填写表单（自动填写表单或单击按钮），但我再次遇到了相同的错误。

我什至无法使用urllib2.urlopen()函数打开 html 页面，它给出了相同的错误。

谁能帮我解决这个问题吗？

postgresql mechanize beautifulsoup python-2.7

1
推荐指数

1
解决办法

2913
查看次数

BeautifulSoup 不抓取动态内容

我遇到的问题是我想从此页面获取相关链接：http://support.apple.com/kb/TS1538

如果我在 Chrome 或 Safari 中检查 Element，我可以看到<div id="outer_related_articles">列出的文章和所有文章。如果我尝试使用 BeautifulSoup 抓取它，它将抓取页面和除相关文章之外的所有内容。

这是我到目前为止所拥有的：

import urllib2
from bs4 import BeautifulSoup
url = "http://support.apple.com/kb/TS1538"
response = urllib2.urlopen(url)
soup = BeautifulSoup(response.read())
print soup

Run Code Online (Sandbox Code Playgroud)

html python dynamic beautifulsoup

1
推荐指数

1
解决办法

8016
查看次数

Python Mechanize HTTP 错误 403：robots.txt 不允许请求

因此，我创建了一个 Django 网站来从网络上抓取新闻网页以获取文章。即使我使用 mechanize，他们仍然告诉我：

HTTP Error 403: request disallowed by robots.txt

Run Code Online (Sandbox Code Playgroud)

我尝试了一切，看看我的代码（只是要抓取的部分）：

br = mechanize.Browser()
page = br.open(web)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
    #BeautifulSoup 
htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)

Run Code Online (Sandbox Code Playgroud)

我也尝试在 set_hande_robots(Flase) 等之前使用 de br.open 。它也不起作用。

有什么办法可以通过这个网站吗？

python django robots.txt mechanize beautifulsoup

作者

1
推荐指数

1
解决办法

4611
查看次数

用 BeautifulSoup 包装标签的内容

我试图用 BeautifulSoup 包装标签的内容。这：

<div class="footnotes">
    <p>Footnote 1</p>
    <p>Footnote 2</p>
</div>

Run Code Online (Sandbox Code Playgroud)

应该变成这样：

<div class="footnotes">
  <ol>
    <p>Footnote 1</p>
    <p>Footnote 2</p>
  </ol>
</div>

Run Code Online (Sandbox Code Playgroud)

所以我使用以下代码：

footnotes = soup.findAll("div", { "class" : "footnotes" })
footnotes_contents = ''
new_ol = soup.new_tag("ol") 
for content in footnotes[0].children:
    new_tag = soup.new_tag(content)
    new_ol.append(new_tag)

footnotes[0].clear()
footnotes[0].append(new_ol)

print footnotes[0]

Run Code Online (Sandbox Code Playgroud)

但我得到以下信息：

<div class="footnotes"><ol><
    ></
    ><<p>Footnote 1</p>></<p>Footnote 1</p>><
    ></
    ><<p>Footnote 2</p>></<p>Footnote 2</p>><
></
></ol></div>

Run Code Online (Sandbox Code Playgroud)

建议？

python lxml beautifulsoup

1
推荐指数

1
解决办法

3324
查看次数

Beautifulsoup 将 colspan=2 替换为单列

我正在尝试解析偶尔具有 colspan=2 的行中的数据，这会破坏我提取目标数据的能力。我想做的是每次出现时从表元素中删除“colspan=2”：

#replace
<td colspan="2" class="time">10:00 AM</td>
#with
<td>635</td>

Run Code Online (Sandbox Code Playgroud)

这可能吗？我可以将其转化为条件 if then else 吗？

这是一个更详细的示例：

<table>
<tr class="playerRow even">
<td class="pos">1</td>
<td><span class="rank"></span> -</td>
<td class="player"><p class="playerName">John doe</p></td>
<td class="background">X</td>
<td>345</td> #THIS ELEMENT FREQUENT
<td></td>
<td></td>
<td></td>
<td></td>
<td style=""></td>
</tr><

<tr class="playerRow odd">
<td class="pos">1</td>
<td><span class="rank"></span> -</td>
<td class="player"><p class="playerName">John doe</p></td>
<td class="background">X</td>
<td colspan="2" class="myClass" style="">3:15 PM</td> #THIS ELEMENT OCCASIONAL
<td></td>
<td></td>
<td></td>
<td></td>
<td style=""></td>
</tr>

<tr class="playerRow odd">
<td class="pos">1</td>
<td><span class="rank"></span> -</td>
<td …

Run Code Online (Sandbox Code Playgroud)

1
推荐指数

1
解决办法

3166
查看次数

BeautifulSoup：如何获取 div 选项卡的子级

这是我的代码。

 import requests
 from bs4 import BeautifulSoup
 res = requests.get('http://www.snapdeal.com/products/computers-laptops?sort=plrty&')
 soup = BeautifulSoup(res.text)
 price = soup.find_all('div', class_="product-price").children

Run Code Online (Sandbox Code Playgroud)

我想从这个网站上抓取数据，但该 div 没有类，这就是为什么我不知道该怎么做，然后我发现你可以找到 div 标签的子级，但它也不起作用，我正在尝试获取所有标签。

python beautifulsoup python-requests

1
推荐指数

1
解决办法

2470
查看次数

无法使用请求从网页中收集某些值

我正在尝试从网页中的表格中获取一些动态值。此图像表示我希望从该页面获取的值。应该有任何方法可以使用请求来获取它们。为了让您知道，我在开发工具中查找了任何隐藏的 api，还通过页面源代码中的脚本标签查找了值，但我找不到。

这是网站网址

这是我所追求的预期输出。

这是我到目前为止写的：

import requests
from bs4 import BeautifulSoup

url = "https://www.dailyfx.com/sentiment"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

r = requests.get(url,headers=headers)
soup = BeautifulSoup(r.text,"lxml")
for items in soup.select(".dfx-technicalSentimentCard__barContainer"):
    data = [item.get("data-value") for item in items.select("[data-type='long-value-info'],[data-type='short-value-info']")]
    print(data)

Run Code Online (Sandbox Code Playgroud)

上面的脚本产生如下的空输出：

['--', '--']
['--', '--']
['--', '--']
['--', '--']
['--', '--']
['--', '--']
['--', '--']

Run Code Online (Sandbox Code Playgroud)

如何使用请求从该表中获取值？

python beautifulsoup web-scraping python-requests

1
推荐指数

1
解决办法

260
查看次数

抓取启用 JS 的站点以实现自动化

我正在尝试抓取一个特定站点 ( https://chartink.com/screener/test-121377 ) 我正在尝试访问 URL 中提供的表。该表可以是动态形式。该站点启用了 JS，因此尝试 HTML 抓取是多余的。接下来，我尝试使用 cURL 访问 XHR 元素，它确实有效。我使用了以下代码：

import requests
headers = {
'authority': 'chartink.com',
'pragma': 'no-cache',
'cache-control': 'no-cache',
'accept': 'application/json, text/javascript, */*; q=0.01',
'x-csrf-token': 'HYMZ6XnOySvn1w4fHEN0Hu1ublftvidgdBD5qywR',
'x-requested-with': 'XMLHttpRequest',
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36',
'sentry-trace': 'd9b8f7ffcae445f7a74913d5ac143918-9fa7556ebb76186c-0',
'content-type': 'application/x-www-form-urlencoded; charset=UTF-8',
'origin': 'https://chartink.com',
'sec-fetch-site': 'same-origin',
'sec-fetch-mode': 'cors',
'sec-fetch-dest': 'empty',
'referer': 'https://chartink.com/screener/test-121377',
'accept-language': 'en-IN,en;q=0.9,hi-IN;q=0.8,hi;q=0.7,en-GB;q=0.6,en-US;q=0.5',
'cookie': '_ga=GA1.2.468738165.1600680012; remember_web_59ba36addc2b2f9401580f014c7f58ea4e30989d=eyJpdiI6Inp6YWdERUJHSGxoWmhRaE00MGhONHc9PSIsInZhbHVlIjoiSXN1d09PXC9USmpGb2lFR21naFd1Q3RlcCtKSDdUXC8zdGRnMkRoQmNcL2loXC9tT0tMXC9sc0JtallJVCtNczVhVjhIdGUyb0xqMTIydlc0RWtQYVZcLzF1aFd3aXRPM0M3MDVObUtNK1FtdmJtZjY1YUxNbTlyTHhNWFhjU3VZNXpUTWY0SjZ4M1o1VEcydk1DWDY5YWVSdWRjbVwvQmkyYmlDT2VMWFVCM043Y2JIY21UTjNsdnJLaE1qSnNybmM2WVhISyIsIm1hYyI6IjhlNjBiZWUxMWU3NTBkOTRjM2NlYTZiNGI3YzJhYjg4M2E0OWI2MDU3ZDZkYWUzNzE1YjYxOTRhMTllMjY2ZWQifQ%3D%3D; __utmc=102564947; PHPSESSID=e3797d9e58f9f56b0307e7840f6839f7; bfp_sn_rf_8b2087b102c9e3e5ffed1c1478ed8b78=Direct/External; bfp_sn_rt_8b2087b102c9e3e5ffed1c1478ed8b78=1601299430046; bafp=d8afd2b0-018d-11eb-b966-a1985446bf25; hbcm_sd=1%7C1602315380999; _gid=GA1.2.729526333.1602491131; __utma=102564947.468738165.1600680012.1601134509.1602499714.2; __utmz=102564947.1602499714.2.2.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); XSRF-TOKEN=eyJpdiI6InVXSEFpN2xiYWZqWDkzNEdWZVBTSkE9PSIsInZhbHVlIjoiQlM2eVBYMjdYR3N4QTh6YmtFWmNoTUtOVHBIOFVoUG04WTdcL05iUm4yZExQR3ZucHlPVHhucVwvbjlHTW9VcmZCIiwibWFjIjoiMWEyMzViZDQ5YWI1YzIzY2UzYTdkNzRlN2UyZmYzNmY1ZWNkYTBmZmJmOWI2YjZmOGRmN2U2Y2IzOGE5ZmQwNiJ9; ci_session=eyJpdiI6ImtcLzNBOGxOb1l2bFlyOEFnQ2dxVHNBPT0iLCJ2YWx1ZSI6IjRpNVhXOWtGZlV0TWdwZlhIVGRmWFgrcGFyblwveGlkdVU5aHJraVdvbFROOURUa2Zhc2pcLzJNOE9qa0FwcjlwbSIsIm1hYyI6IjVlYTUwNDgxN2U0NTU4OWE0NTgxOTMwNjNjMzdhM2Q5MjRiMjJjMTBkYzI0ZTdkOTg1YTg5YmIxNTM3NzFlMDQifQ%3D%3D',}
data = …

Run Code Online (Sandbox Code Playgroud)

python ajax beautifulsoup web-scraping

1
推荐指数

1
解决办法

370
查看次数

无法获取正确的 div 以从表中获取数据

我试图从https://gmatclub.com/forum/decision-tracker.html抓取数据经过大量的点击和试验，我仍然无法确定如何从表格中获取数据？

import requests
from bs4 import BeautifulSoup
url = "https://gmatclub.com/forum/decision-tracker.html"
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
container = soup.find('div', attrs = {'class' : 'mainPage'})
print(container)

Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-scraping

1
推荐指数

1
解决办法

51
查看次数

雅虎财经python上的某些股票和页面出现404错误

我正在尝试通过此 URL https://finance.yahoo.com/quote/AAPL/key-statistics?p=AAPL从雅虎财经中抓取数据。运行下面的python代码后，我得到以下HTML响应

import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import requests, lxml
from lxml import html

stockStatDict = {}
stockSymbol = 'AAPL'
URL = 'https://finance.yahoo.com/quote/'+ stockSymbol + '/key-statistics?p=' + stockSymbol
page = requests.get(URL)
print(page.text)


<!DOCTYPE html>
  <html lang="en-us"><head>
  <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <meta charset="utf-8">
      <title>Yahoo</title>
      <meta name="viewport" content="width=device-width,initial-scale=1,minimal-ui">
      <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
      <style>
  html {
      height: 100%;
  }
  body {
      background: #fafafc url(https://s.yimg.com/nn/img/sad-panda-201402200631.png) 50% 50%;
      background-size: cover;
      height: 100%;
      text-align: center;
      font: 300 18px …

Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-scraping http-status-code-404

1
推荐指数

1
解决办法

1234
查看次数

标签统计

beautifulsoup ×10

web-scraping ×4

python-requests ×2

ajax ×1

html ×1

http-status-code-404 ×1

lxml ×1

«
1
…
155
156
157
158
159
…
170
»