div*_*rsh 3 python beautifulsoup web-scraping python-3.x pandas
我需要帮助从网页中提取 kmz 和 zip 文件。以下代码能够提取表格,但不能提取表格内的文件和链接。我可以在代码中包含哪些内容,以便输出表还包含链接和文件,而不仅仅是纯文本?
网页:
https://www.nhc.noaa.gov/gis/
Run Code Online (Sandbox Code Playgroud)
代码:
import pandas as pd
url = 'https://www.nhc.noaa.gov/gis/'
result = pd.read_html(url)[0]
result
Run Code Online (Sandbox Code Playgroud)
小智 5
我会说使用 beautifulsoup (bs4) 而不是 pandas 来解析 html。
pip install beautifulsoup4 requests
Run Code Online (Sandbox Code Playgroud)
然后就这么简单
import bs4
import requests
result = bs4.BeautifulSoup(requests.get('https://www.nhc.noaa.gov/gis/').content, features='html.parser')
for link in result.find('table').find_all('a'):
print(link.attrs['href'])
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
111 次 |
| 最近记录: |