用Python解析html标签

Question

用Python解析html标签

我收到了一个网址,我想<BODY>从网址中提取标签的内容.我正在使用Python3.我遇到过sgmllib但它不适用于Python3.

有人可以指导我吗？我可以用HTMLParser它吗？

这是我试过的:

import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()

from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
    def handle_data(self, data):
        print("Encountered   some data:", data)

parser = MyHTMLParser()
parser.feed(s)

Run Code Online (Sandbox Code Playgroud)

这给了我错误:TypeError:无法隐式地将'bytes'对象转换为str

Answer 1

pyc*_*358 10

将TypeError更改行#3修复为

s = str(f.read())

您获取的网页将以字节的形式返回,您需要将字节更改为字符串以将其提供给解析器.

归档时间：	14 年，4 月前
查看次数：	3974 次
最近记录：	14 年，4 月前