ric*_*ick 3 python django parsing feeds
该文档列出了默认允许/删除的标记:
http://www.feedparser.org/docs/html-sanitization.html
但它没有说明如何指定要删除的其他标签.
有没有办法使用Universal Feed Parser进行此操作,或者您是否需要使用自己的正则表达式和/或类似美丽的汤进行进一步处理?
我快速查看了代码,我认为没有办法直接覆盖它们.但是你可以覆盖feedparser._HTMLSanitizer.acceptable_elements,在做之前不会被删除的标签列表feedparser.parse
| 归档时间: |
|
| 查看次数: |
1480 次 |
| 最近记录: |