相关疑难解决方法(0)

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本.如果我从浏览器复制文本并将其粘贴到记事本中,我想要的输出基本相同.

我想要比使用可能在格式不正确的HTML上失败的正则表达式更强大的东西.我见过很多人推荐Beautiful Soup,但是我使用它时遇到了一些问题.首先,它选择了不需要的文本,例如JavaScript源代码.此外,它没有解释HTML实体.例如,我希望' 在HTML源代码中转换为文本中的撇号,就像我将浏览器内容粘贴到记事本中一样.

更新 html2text看起来很有希 它正确处理HTML实体并忽略JavaScript.但是,它并不完全产生纯文本; 它会产生降价,然后必须将其转换为纯文本.它没有示例或文档,但代码看起来很干净.


相关问题:

html python text html-content-extraction

222
推荐指数
12
解决办法
32万
查看次数

在Python中解析HTML

如果我不能使用BeautifulSoup或lxml,解析HTML的最佳选择是什么?我有一些使用SGMLlib的代码,但它有点低级,现在已经弃用了.

我更喜欢它可能会造成一些格式错误的HTML,尽管我很确定大部分输入都会非常干净.

python html-parsing

27
推荐指数
1
解决办法
5万
查看次数

Python html解析实际上有效

我正在尝试用Python解析一些html.有些方法之前确实有效......但是现在没有变通方法我就无法实际使用.

  • SGMLParser离开后,beautifulsoup有问题
  • html5lib无法解析"那里"的一半
  • lxml试图对于典型的html"太正确"(属性和标签不能包含未知的命名空间,或者抛出异常,这意味着几乎没有可以解析具有Facebook连接的页面)

这些天还有哪些其他选择?(如果他们支持xpath,那会很棒)

html python parsing

15
推荐指数
3
解决办法
3792
查看次数