小编and*_*lue的帖子

使用 python 抓取网站时如何将 <br> 标签转换为逗号/新列?

我正在尝试抓取下面的网站。我可以使用下面的代码从中获取我需要的所有数据。然而,“br”标签给我带来了问题。我希望将它们视为数据框中新列的指示器。

这是网站:directory.ccnecommunity.org/...

  • 我尝试了 BeautifulSoup 并得到了无效标签。效果不太好。
  • 我的想法是删除除“br”之外的所有标签,然后返回并用逗号替换它们。添加了太多其他废话,而不仅仅是纯文本。

代码:

url = 'http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?state=AL&sFullName=Alabama&sProgramType=1'
table = pd.read_html(url)
table = pd.concat(table[1:-1])
table.columns = table.iloc[0]
table = table.iloc[1:-1]
print(table)
Run Code Online (Sandbox Code Playgroud)

我希望表/学校部分中的每个缩进都是我的数据框中的一个新列。我可以稍后给它们命名并清理它们。我使用 selenium 来获取 URL,因为搜索页面是 java 脚本。使用硒来做到这一点会更好吗?我总是可以导出到 csv 并使用 pandas 读回它。任何帮助或提示将不胜感激。

web-scraping python-3.x pandas

1
推荐指数
1
解决办法
1073
查看次数

标签 统计

pandas ×1

python-3.x ×1

web-scraping ×1