标签: beautifulsoup

BeautifulSoup - 修改一段HTML中的所有链接?

我需要能够修改HTML文档中的每个链接.我知道我需要使用它,SoupStrainer但我不是100%肯定如何实现它.如果有人可以指导我找到一个好的资源或提供一个代码示例,我们将非常感激.

谢谢.

python beautifulsoup

18
推荐指数
3
解决办法
1万
查看次数

如何在美丽的汤中获得嵌套元素

我正在努力获取在td中获取一些href所需的语法.table,tr和td元素没有任何类或id.

如果我想在这个例子中抓住锚点,我需要什么?

<tr> <td> <a> ...

谢谢

python beautifulsoup

18
推荐指数
2
解决办法
3万
查看次数

使用Python解码HTML实体

我正在尝试从这里NYTimes.com解码HTML条目,我无法弄清楚我做错了什么.

举个例子:

"U.S. Adviser&#8217;s Blunt Memo on Iraq: Time &#8216;to Go Home&#8217;"
Run Code Online (Sandbox Code Playgroud)

我尝试过BeautifulSoup,解码('iso-8859-1')和django.utils.encoding的smart_str,没有任何成功.

python unicode content-type beautifulsoup character-encoding

18
推荐指数
4
解决办法
2万
查看次数

针对PHP的Mechanize和BeautifulSoup?

我想知道是否有类似于Mechanize或BeautifulSoup for PHP的类似内容?

php python mechanize beautifulsoup

18
推荐指数
2
解决办法
2万
查看次数

如何使用BeautifulSoup从特定表中获取所有行?

我正在学习Python和BeautifulSoup来从网上抓取数据,并阅读HTML表格.我可以将它读入Open Office,它说它是表#11.

似乎BeautifulSoup是首选,但任何人都可以告诉我如何获取特定的表和所有行?我查看了模块文档,但无法理解它.我在网上找到的许多例子似乎比我需要的更多.

python beautifulsoup

18
推荐指数
2
解决办法
3万
查看次数

BeautifulSoup:获取特定表的内容

我的当地机场不光彩地阻止没有IE的用户,看起来很糟糕.我想编写一个Python脚本,每隔几分钟就可以获取Arrival和Departures页面的内容,并以更易读的方式显示它们.

我选择的工具是机械化欺骗网站以相信我使用IE,而BeautifulSoup用于解析页面以获取航班数据表.

老实说,我迷失在BeautifulSoup文档中,无法理解如何从整个文档中获取表(我知道他的标题),以及如何从该表中获取行列表.

有任何想法吗?

python beautifulsoup tabular web-scraping

18
推荐指数
3
解决办法
5万
查看次数

提取元素并插入空格

我在python中使用BeautifulSoup解析html

我不知道如何在提取文本元素时插入空格

这是代码:

import BeautifulSoup
soup=BeautifulSoup.BeautifulSoup('<html>this<b>is</b>example</html>')
print soup.text
Run Code Online (Sandbox Code Playgroud)

那么输出就是

thisisexample

但我想为此插入一个空格

是例子

我该如何插入空格?

python beautifulsoup html-parsing

18
推荐指数
1
解决办法
3389
查看次数

如何替换或删除"&nbsp;"等HTML实体 使用BeautifulSoup 4

我正在使用Python和BeautifulSoup 4库处理HTML,我找不到&nbsp;用空格替换的明显方法.相反,它似乎被转换为Unicode非破坏空格字符.

我错过了一些明显的东西吗 什么是更换的最佳方式  使用BeautifulSoup的正常空间?

编辑添加我使用的是最新版本BeautifulSoup 4,因此convertEntities=BeautifulSoup.HTML_ENTITIESBeautiful Soup 3中的选项不可用.

python beautifulsoup

18
推荐指数
5
解决办法
3万
查看次数

将io.BytesIO转换为io.StringIO以解析HTML页面

我正在尝试解析通过pyCurl检索的HTML页面,但是pyCurl WRITEFUNCTION将页面返回为BYTES而不是字符串,所以我无法使用BeautifulSoup解析它.

有没有办法将io.BytesIO转换为io.StringIO?

或者还有其他方法来解析HTML页面吗?

我正在使用Python 3.3.2.

html beautifulsoup type-conversion pycurl stringio

18
推荐指数
2
解决办法
2万
查看次数

如何使用Python 3和Beautiful Soup获取维基百科文章的文章?

我有这个脚本在Python 3中制作:

response = simple_get("https://en.wikipedia.org/wiki/Mathematics")
result = {}
result["url"] = url
if response is not None:
    html = BeautifulSoup(response, 'html.parser')
    title = html.select("#firstHeading")[0].text
Run Code Online (Sandbox Code Playgroud)

正如你所看到的,我可以从文章中获得标题,但我无法弄清楚如何从"数学(从希腊语μά..."到内容表中获取文本...

html python wikipedia beautifulsoup web-scraping

18
推荐指数
4
解决办法
3555
查看次数