相关疑难解决方法(0)

在Python中解析HTML

如果我不能使用BeautifulSoup或lxml,解析HTML的最佳选择是什么?我有一些使用SGMLlib的代码,但它有点低级,现在已经弃用了.

我更喜欢它可能会造成一些格式错误的HTML,尽管我很确定大部分输入都会非常干净.

python html-parsing

27
推荐指数
1
解决办法
5万
查看次数

用Python解析html标签

我收到了一个网址,我想<BODY>从网址中提取标签的内容.我正在使用Python3.我遇到过sgmllib但它不适用于Python3.

有人可以指导我吗?我可以用HTMLParser它吗?

这是我试过的:

import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()

from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
    def handle_data(self, data):
        print("Encountered   some data:", data)

parser = MyHTMLParser()
parser.feed(s)
Run Code Online (Sandbox Code Playgroud)

这给了我错误:TypeError:无法隐式地将'bytes'对象转换为str

python-3.x

5
推荐指数
1
解决办法
3974
查看次数

标签 统计

html-parsing ×1

python ×1

python-3.x ×1