我应该在Python中使用哪种微数据解析器

Sha*_*ter 5 python beautifulsoup microdata

我正在寻找一个高质量的HTML Microdata解析器在Python中.它不一定非常快,但我希望尽可能多地支持这些规范,包括itemref.

这是我到目前为止所发现的:

你使用过这些库吗?有什么优点和缺点?

我也很好奇解析格式不佳的HTML文档.您是否找到了处理凌乱输入的微数据解析器,或者您是否首先通过BeautifulSoup之类的命令运行输入?

Jas*_*n R 4

您希望将微数据解析为什么格式?

https://github.com/RDFLib/pymicrodata将解析为 RDF。

如果您想要 JSON,则应该使用https://github.com/edsu/microdata,它最近引起了一些关注,并且应该更符合规范。

https://pypi.python.org/pypi/pelican-microdata/0.1看起来像是一种为特定静态站点生成器生成微数据的方法,所以我认为它不会有助于解析。

我不知道上述解析器对格式不良的 HTML 的容忍度如何。如果您知道一些使用 Microdata 的格式不良的标记,我很有兴趣了解 Ruby 解析器处理这些情况的效果如何。