如果我不能使用BeautifulSoup或lxml,解析HTML的最佳选择是什么?我有一些使用SGMLlib的代码,但它有点低级,现在已经弃用了.
我更喜欢它可能会造成一些格式错误的HTML,尽管我很确定大部分输入都会非常干净.
我收到了一个网址,我想<BODY>从网址中提取标签的内容.我正在使用Python3.我遇到过sgmllib但它不适用于Python3.
有人可以指导我吗?我可以用HTMLParser它吗?
这是我试过的:
import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print("Encountered some data:", data)
parser = MyHTMLParser()
parser.feed(s)
Run Code Online (Sandbox Code Playgroud)
这给了我错误:TypeError:无法隐式地将'bytes'对象转换为str