Sha*_*ter 5 python beautifulsoup microdata
我正在寻找一个高质量的HTML Microdata解析器在Python中.它不一定非常快,但我希望尽可能多地支持这些规范,包括itemref.
这是我到目前为止所发现的:
你使用过这些库吗?有什么优点和缺点?
我也很好奇解析格式不佳的HTML文档.您是否找到了处理凌乱输入的微数据解析器,或者您是否首先通过BeautifulSoup之类的命令运行输入?
您希望将微数据解析为什么格式?
https://github.com/RDFLib/pymicrodata将解析为 RDF。
如果您想要 JSON,则应该使用https://github.com/edsu/microdata,它最近引起了一些关注,并且应该更符合规范。
https://pypi.python.org/pypi/pelican-microdata/0.1看起来像是一种为特定静态站点生成器生成微数据的方法,所以我认为它不会有助于解析。
我不知道上述解析器对格式不良的 HTML 的容忍度如何。如果您知道一些使用 Microdata 的格式不良的标记,我很有兴趣了解 Ruby 解析器处理这些情况的效果如何。
| 归档时间: |
|
| 查看次数: |
2136 次 |
| 最近记录: |