小编Eat*_*ode的帖子

网页抓取 LinkedIn 没有给我 html....我做错了什么?

因此,我尝试抓取 LinkedIn 的“关于”页面,以获取某些公司的“特色”。当尝试用 beautiful soup 抓取 LinkedIn 时,它给了我一个访问被拒绝的错误,所以我使用一个标头来伪造我的浏览器。但是,它给出以下输出而不是相应的 HTML:

\n\nwindow.onload = function() {\n // 从 cookies 中解析跟踪代码。\n var trk = "bf";\n var trkInfo = "bf";\n var cookies = document.cookie.split ("; ");\n for (var i = 0; i < cookies.length; ++i) {\n if ((cookies[i].indexOf("trkCode=") == 0) && (cookies [i].length > 8)) {\n trk = cookies[i].substring(8);\n }\n else if ((cookies[i].indexOf("trkInfo=") == 0) && (cookies[i].length > 8)) {\n trkInfo = cookies[i].substring(8);\n }\n }\n\n if (window.location.protocol == "http:") {\n // 如果设置了“sl”cookie,则重定向到 https。\n for (var …

html python selenium beautifulsoup web-scraping

5
推荐指数
1
解决办法
2573
查看次数

使用用户代理头时 Webscraping CrunchBase 访问被拒绝

我正在尝试通过网络抓取 Crunch Base 来查找某些公司的总资金金额。这是一个示例的链接

起初,我尝试只使用漂亮的汤,但我不断收到错误消息:

访问此页面已被拒绝,因为我们认为您正在使用自动化工具来浏览\n网站。

然后我查找了如何伪造浏览器访问并更改了代码,但仍然出现相同的错误。我究竟做错了什么??

import requests
from bs4 import BeautifulSoup as BS


url = 'https://www.crunchbase.com/organization/incube-labs'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

response = requests.get(url, headers=headers)
print(response.content)
Run Code Online (Sandbox Code Playgroud)

python wget beautifulsoup web-scraping python-requests

3
推荐指数
1
解决办法
2690
查看次数

使用JavaScript更改内联CSS

我一直在尝试单击图像时更改此div标签的样式,并且该样式不起作用。首先,我想检查一下样式是否为“ display:none;”。或“ display:block”。但是,当我尝试警告该值时,无论是在显示设置为无时还是在设置为阻止时,它都返回“ undefined”。

<div id="navbar-mobile-id" style="display:block;" class="navbar-mobile">
Run Code Online (Sandbox Code Playgroud)

这在我的函数中:(函数在单击时起作用,但会提示“未定义”)

alert(console.log(document.getElementById("navbar-mobile-id").style.display));
Run Code Online (Sandbox Code Playgroud)

这应该提醒“阻止”或“无”

html javascript css

0
推荐指数
1
解决办法
58
查看次数