相关疑难解决方法(0)

在Python中解析HTML

如果我不能使用BeautifulSoup或lxml,解析HTML的最佳选择是什么？我有一些使用SGMLlib的代码,但它有点低级,现在已经弃用了.

我更喜欢它可能会造成一些格式错误的HTML,尽管我很确定大部分输入都会非常干净.

python html-parsing

And*_*ker

lucky-day

27
推荐指数

1
解决办法

5万
查看次数

用Python解析html标签

我收到了一个网址,我想<BODY>从网址中提取标签的内容.我正在使用Python3.我遇到过sgmllib但它不适用于Python3.

有人可以指导我吗？我可以用HTMLParser它吗？

这是我试过的:

import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()

from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
    def handle_data(self, data):
        print("Encountered   some data:", data)

parser = MyHTMLParser()
parser.feed(s)

Run Code Online (Sandbox Code Playgroud)

这给了我错误:TypeError:无法隐式地将'bytes'对象转换为str

python-3.x

gsb*_*gsb

2012 02-02

5
推荐指数

1
解决办法

3974
查看次数