标签: beautifulsoup

BeautifulSoup - 修改一段HTML中的所有链接？

我需要能够修改HTML文档中的每个链接.我知道我需要使用它,SoupStrainer但我不是100%肯定如何实现它.如果有人可以指导我找到一个好的资源或提供一个代码示例,我们将非常感激.

谢谢.

python beautifulsoup

Eva*_*ark

lucky-day

18
推荐指数

3
解决办法

1万
查看次数

如何在美丽的汤中获得嵌套元素

我正在努力获取在td中获取一些href所需的语法.table,tr和td元素没有任何类或id.

如果我想在这个例子中抓住锚点,我需要什么？

<tr> <td> <a> ...

谢谢

python beautifulsoup

joe*_*our

2009 06-29

18
推荐指数

2
解决办法

3万
查看次数

使用Python解码HTML实体

我正在尝试从这里NYTimes.com解码HTML条目,我无法弄清楚我做错了什么.

举个例子:

"U.S. Adviser&#8217;s Blunt Memo on Iraq: Time &#8216;to Go Home&#8217;"

Run Code Online (Sandbox Code Playgroud)

我尝试过BeautifulSoup,解码('iso-8859-1')和django.utils.encoding的smart_str,没有任何成功.

python unicode content-type beautifulsoup character-encoding

Key*_*upt

2009 07-31

18
推荐指数

4
解决办法

2万
查看次数

针对PHP的Mechanize和BeautifulSoup？

我想知道是否有类似于Mechanize或BeautifulSoup for PHP的类似内容？

php python mechanize beautifulsoup

Ali*_*xel

2013 11-04

18
推荐指数

2
解决办法

2万
查看次数

如何使用BeautifulSoup从特定表中获取所有行？

我正在学习Python和BeautifulSoup来从网上抓取数据,并阅读HTML表格.我可以将它读入Open Office,它说它是表#11.

似乎BeautifulSoup是首选,但任何人都可以告诉我如何获取特定的表和所有行？我查看了模块文档,但无法理解它.我在网上找到的许多例子似乎比我需要的更多.

python beautifulsoup

Bti*_*rt3

2013 11-29

18
推荐指数

2
解决办法

3万
查看次数

BeautifulSoup:获取特定表的内容

我的当地机场不光彩地阻止没有IE的用户,看起来很糟糕.我想编写一个Python脚本,每隔几分钟就可以获取Arrival和Departures页面的内容,并以更易读的方式显示它们.

我选择的工具是机械化欺骗网站以相信我使用IE,而BeautifulSoup用于解析页面以获取航班数据表.

老实说,我迷失在BeautifulSoup文档中,无法理解如何从整个文档中获取表(我知道他的标题),以及如何从该表中获取行列表.

有任何想法吗？

python beautifulsoup tabular web-scraping

Ada*_*tan

2017 02-20

18
推荐指数

3
解决办法

5万
查看次数

提取元素并插入空格

我在python中使用BeautifulSoup解析html

我不知道如何在提取文本元素时插入空格

这是代码:

import BeautifulSoup
soup=BeautifulSoup.BeautifulSoup('<html>this<b>is</b>example</html>')
print soup.text

Run Code Online (Sandbox Code Playgroud)

那么输出就是

thisisexample

但我想为此插入一个空格

是例子

我该如何插入空格？

python beautifulsoup html-parsing

lum*_*ere

lucky-day

18
推荐指数

1
解决办法

3389
查看次数

如何替换或删除" "等HTML实体使用BeautifulSoup 4

我正在使用Python和BeautifulSoup 4库处理HTML,我找不到 用空格替换的明显方法.相反,它似乎被转换为Unicode非破坏空格字符.

我错过了一些明显的东西吗什么是更换的最佳方式使用BeautifulSoup的正常空间？

编辑添加我使用的是最新版本BeautifulSoup 4,因此convertEntities=BeautifulSoup.HTML_ENTITIESBeautiful Soup 3中的选项不可用.

python beautifulsoup

Ric*_*ish

2013 02-28

18
推荐指数

5
解决办法

3万
查看次数

将io.BytesIO转换为io.StringIO以解析HTML页面

我正在尝试解析通过pyCurl检索的HTML页面,但是pyCurl WRITEFUNCTION将页面返回为BYTES而不是字符串,所以我无法使用BeautifulSoup解析它.

有没有办法将io.BytesIO转换为io.StringIO？

或者还有其他方法来解析HTML页面吗？

我正在使用Python 3.3.2.

html beautifulsoup type-conversion pycurl stringio

Shi*_*pra

lucky-day

18
推荐指数

2
解决办法

2万
查看次数

如何使用Python 3和Beautiful Soup获取维基百科文章的文章？

我有这个脚本在Python 3中制作:

response = simple_get("https://en.wikipedia.org/wiki/Mathematics")
result = {}
result["url"] = url
if response is not None:
    html = BeautifulSoup(response, 'html.parser')
    title = html.select("#firstHeading")[0].text

Run Code Online (Sandbox Code Playgroud)

正如你所看到的,我可以从文章中获得标题,但我无法弄清楚如何从"数学(从希腊语μά..."到内容表中获取文本...

html python wikipedia beautifulsoup web-scraping

作者

2019 06-09

18
推荐指数

4
解决办法

3555
查看次数

标签统计

beautifulsoup ×10

python ×9

html ×2

web-scraping ×2

character-encoding ×1

content-type ×1

html-parsing ×1

mechanize ×1

php ×1

pycurl ×1

stringio ×1

tabular ×1

type-conversion ×1

unicode ×1

wikipedia ×1

标签 统计

标签统计