小编and*_*lue的帖子

使用 python 抓取网站时如何将 <br> 标签转换为逗号/新列？

我正在尝试抓取下面的网站。我可以使用下面的代码从中获取我需要的所有数据。然而，“br”标签给我带来了问题。我希望将它们视为数据框中新列的指示器。

这是网站：directory.ccnecommunity.org/...

我尝试了 BeautifulSoup 并得到了无效标签。效果不太好。
我的想法是删除除“br”之外的所有标签，然后返回并用逗号替换它们。添加了太多其他废话，而不仅仅是纯文本。

代码：

url = 'http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?state=AL&sFullName=Alabama&sProgramType=1'
table = pd.read_html(url)
table = pd.concat(table[1:-1])
table.columns = table.iloc[0]
table = table.iloc[1:-1]
print(table)

Run Code Online (Sandbox Code Playgroud)

我希望表/学校部分中的每个缩进都是我的数据框中的一个新列。我可以稍后给它们命名并清理它们。我使用 selenium 来获取 URL，因为搜索页面是 java 脚本。使用硒来做到这一点会更好吗？我总是可以导出到 csv 并使用 pandas 读回它。任何帮助或提示将不胜感激。

web-scraping python-3.x pandas

and*_*lue

2021 12-24

1
推荐指数

1
解决办法

1073
查看次数

标签统计

pandas ×1

python-3.x ×1

web-scraping ×1

使用 python 抓取网站时如何将 &lt;br&gt; 标签转换为逗号/新列？

标签 统计

小编and_lue的帖子

使用 python 抓取网站时如何将 <br> 标签转换为逗号/新列？

标签统计