我正在尝试抓取下面的网站。我可以使用下面的代码从中获取我需要的所有数据。然而,“br”标签给我带来了问题。我希望将它们视为数据框中新列的指示器。
这是网站:directory.ccnecommunity.org/...
代码:
url = 'http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?state=AL&sFullName=Alabama&sProgramType=1'
table = pd.read_html(url)
table = pd.concat(table[1:-1])
table.columns = table.iloc[0]
table = table.iloc[1:-1]
print(table)
Run Code Online (Sandbox Code Playgroud)
我希望表/学校部分中的每个缩进都是我的数据框中的一个新列。我可以稍后给它们命名并清理它们。我使用 selenium 来获取 URL,因为搜索页面是 java 脚本。使用硒来做到这一点会更好吗?我总是可以导出到 csv 并使用 pandas 读回它。任何帮助或提示将不胜感激。