小编hug*_*ete的帖子

BeautifulSoup返回意想不到的额外空间

我试图用BeautifulSoup从html文档中获取一些文本.在一个非常相关的案例中,它产生了一个奇怪而有趣的结果:在某个点之后,汤在文本中充满了额外的空间(一个空格将每个字母与下一个字母分开).我试图搜索网络以找到原因,但我只遇到了一些有关相反错误的消息(根本没有空格).

你有什么建议或暗示它为什么会发生,以及如何解决这个问题？

这是我创建的最基本的代码:

from bs4 import BeautifulSoup

import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup

Run Code Online (Sandbox Code Playgroud)

这是从结果中得到的一条线,这个问题开始出现的那一行:

value = \"Giuseppe labbate ogm？non vorremmo nuovi uccelli chiamati lontre \"> <input onmouseover = \"提示('<cen terclass =\\'title _ video\\'> <b> G iuseppelabbateogm？nonvorremmonuoviuccel lichiamatilontre <

html python text beautifulsoup

hug*_*ete

2015 01-05

16
推荐指数

2
解决办法

2336
查看次数

标签统计

beautifulsoup ×1

html ×1

python ×1

text ×1

BeautifulSoup返回意想不到的额外空间

标签 统计

小编hug_ete的帖子

标签统计