我应该使用什么语言/工具进行HTML解析？

Question

我应该使用什么语言/工具进行HTML解析？

Mar*_*tin 7 html screen-scraping html-parsing

我有几个网站,我想从以前的经验中提取数据,这并不像听起来那么容易.为什么？仅仅因为我必须解析的HTML页面没有正确格式化(缺少结束标记等).

考虑到我对可以使用的技术,语言或工具没有限制,您有什么建议可以轻松地从HTML页面解析和提取数据？我已经尝试过HTML Agility Pack,BeautifulSoup,甚至这些工具也不完美(HTML Agility Pack有问题,而且BeautifulSoup解析引擎不适用于我传递给它的页面).

谢谢!

Answer 1

cle*_*tus 5

您可以使用几乎任何您喜欢的语言,只是不要尝试使用正则表达式解析HTML.

所以让我重新说一下并说:你可以使用任何你喜欢的语言,它有一个HTML解析器,这几乎是过去15 - 20年发明的一切.

如果您遇到特定页面的问题,我建议您考虑使用HTML Tidy修复它们.

归档时间：	16 年，11 月前
查看次数：	3733 次
最近记录：	10 年，4 月前