如何使用Python从网页中提取表格的内容？

Question

如何使用Python从网页中提取表格的内容？

div*_*rsh 3 python beautifulsoup web-scraping python-3.x pandas

我需要帮助从网页中提取 kmz 和 zip 文件。以下代码能够提取表格，但不能提取表格内的文件和链接。我可以在代码中包含哪些内容，以便输出表还包含链接和文件，而不仅仅是纯文本？

网页：

https://www.nhc.noaa.gov/gis/

Run Code Online (Sandbox Code Playgroud)

代码：

import pandas as pd
url = 'https://www.nhc.noaa.gov/gis/'
result = pd.read_html(url)[0]
result

Run Code Online (Sandbox Code Playgroud)

Answer 1

小智 5

我会说使用 beautifulsoup (bs4) 而不是 pandas 来解析 html。

pip install beautifulsoup4 requests

Run Code Online (Sandbox Code Playgroud)

然后就这么简单

import bs4
import requests

result = bs4.BeautifulSoup(requests.get('https://www.nhc.noaa.gov/gis/').content, features='html.parser')
for link in result.find('table').find_all('a'):
    print(link.attrs['href'])

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，5 月前
查看次数：	111 次
最近记录：	5 年，5 月前