相关疑难解决方法(0)

使用Python解析HTML

我正在寻找一个用于Python的HTML Parser模块,它可以帮助我以Python列表/字典/对象的形式获取标签.

如果我有一份表格的文件:

<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>
Run Code Online (Sandbox Code Playgroud)

然后它应该给我一种方法来通过HTML标签的名称或ID访问嵌套标签,这样我基本上可以让它给我div标签中class='container'包含的body标签中的内容/文本,或类似的东西.

如果您使用过Firefox的"Inspect element"功能(查看HTML),您就会知道它以一种漂亮的嵌套方式为您提供所有标记,就像树一样.

我更喜欢内置模块,但可能会有点太多.


我在Stack Overflow和互联网上的一些博客上经历了很多问题,其中大多数都建议使用BeautifulSoup或lxml或HTMLParser,但其中很少有人详细介绍了这些功能,最后只是讨论哪一个更快/更有效.

python html-parsing xml-parsing

166
推荐指数
5
解决办法
24万
查看次数

utf-8 字符的编码问题

我通过使用漂亮的汤库从网页上获得了一个链接a.get('href')。在链接中有一个奇怪的字符,®但是当我得到它时变成了®. 如何正确编码?我已经在页面开头添加了# -*- coding: utf-8 -*-

r = requests.get(url)

soup = BeautifulSoup(r.text)
Run Code Online (Sandbox Code Playgroud)

python beautifulsoup utf-8 mojibake python-requests

3
推荐指数
1
解决办法
1504
查看次数