如何使用Python从网页中提取表格的内容?

div*_*rsh 3 python beautifulsoup web-scraping python-3.x pandas

我需要帮助从网页中提取 kmz 和 zip 文件。以下代码能够提取表格,但不能提取表格内的文件和链接。我可以在代码中包含哪些内容,以便输出表还包含链接和文件,而不仅仅是纯文本?

网页:

https://www.nhc.noaa.gov/gis/
Run Code Online (Sandbox Code Playgroud)

代码:

import pandas as pd
url = 'https://www.nhc.noaa.gov/gis/'
result = pd.read_html(url)[0]
result
Run Code Online (Sandbox Code Playgroud)

小智 5

我会说使用 beautifulsoup (bs4) 而不是 pandas 来解析 html。

pip install beautifulsoup4 requests
Run Code Online (Sandbox Code Playgroud)

然后就这么简单

import bs4
import requests

result = bs4.BeautifulSoup(requests.get('https://www.nhc.noaa.gov/gis/').content, features='html.parser')
for link in result.find('table').find_all('a'):
    print(link.attrs['href'])
Run Code Online (Sandbox Code Playgroud)