美丽的汤无法加载整个页面

Question

美丽的汤无法加载整个页面

shu*_*up1 2 python beautifulsoup web-crawler

我有一个网络爬行脚本

import requests
from lxml import html
import bs4
res = requests.get('https://in.linkedin.com/in/ASAMPLEUSERNAME', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'})

print(res.text)

Run Code Online (Sandbox Code Playgroud)

请将代码中的 url 中的“ASAMPLEUSERNAME”替换为一些虚拟 linkedin 用户

但代码只给了我部分不完整（几乎没有）的网页源

Answer 1

Wal*_*ald 6

正如 BenG 所说，内容是动态的。通过查看源代码您可以看到这一点。那里的很多 html 都包含“脚本”。您可以使用其他库（例如 selenium）来加载动态元素。

编辑：理论上，这就是使用 selenium 获取页面源代码的方式。实际操作起来，似乎有点困难。我被重定向到 Linkedin 的登录名。但你可以扩展代码来登录，然后获取页面的源代码。如果您需要帮助，请告诉我。请注意，要使此代码正常工作，您需要安装 chrome 并在表示 yourdriver 的路径中放置一个 chromedriver。

from selenium import webdriver
driver = webdriver.Chrome(executable_path=yourdriver)
url ='https://in.linkedin.com/in/SOMEUSER'
driver.get(url)
html = driver.page_source

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，7 月前
查看次数：	10569 次
最近记录：	7 年，7 月前