使用Beautiful Soup在python中解析网页

maz*_*zix 8 python urllib beautifulsoup

从网站上获取数据我遇到了一些麻烦.网站来源如下:

view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO
Run Code Online (Sandbox Code Playgroud)

有这样的事:

INFORMACJE O FILMIE

Tytuł............................................:Lameràboire

Ocena .............................................:IMDB - 6.3/10(24)

Produkcja .........................................:Francja

Gatunek ...........................................:Dramat

Czas trwania ......................................:98分钟

Premiera ..........................................:22.02.2012 - Świat

Reżyseria........................................:Jacques Maillot

Scenariusz ........................................:Pierre Chosson,Jacques Maillot

Aktorzy ...........................................:Daniel Auteuil,Maud Wyler ,YannTrégouët,Alain Beigel

我想从这个网站获得数据的Python列表:

[[Tytu?, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - ?wiat"]
[Re?yseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]
Run Code Online (Sandbox Code Playgroud)

我使用BeautifulSoup编写了一些代码,但我不能再进一步了,我只是不知道从网站源代码中得到什么,以及如何转换为字符串...请帮忙!

我的代码:

    # -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib2
from bs4 import BeautifulSoup

try :
    web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
    soup = BeautifulSoup(web_page)
    c = soup.find('span', {'class':'vi'}).contents
    print(c)
except urllib2.HTTPError :
    print("HTTPERROR!")
except urllib2.URLError :
    print("URLERROR!")
Run Code Online (Sandbox Code Playgroud)

bra*_*zzi 14

使用BeautifulSoup的秘诀是找到HTML文档的隐藏模式.例如,你的循环

for ul in soup.findAll('p') :
    print(ul)
Run Code Online (Sandbox Code Playgroud)

是在正确的方向,但它将返回所有段落,而不仅仅是你正在寻找的段落.但是,您正在寻找的段落具有上课的有用属性i.在这些段落中,可以找到两个跨度,一个带有类i,另一个带有类vi.我们很幸运,因为这些跨度包含您正在寻找的数据:

<p class="i">
    <span class="i">Tytu?............................................</span>
    <span class="vi">: La mer à boire</span>
</p>
Run Code Online (Sandbox Code Playgroud)

所以,首先得到给定类的所有段落:

>>> ps = soup.findAll('p', {'class': 'i'})
>>> ps
[<p class="i"><span class="i">Tytu?... <LOTS OF STUFF> ...pan></p>]
Run Code Online (Sandbox Code Playgroud)

现在,使用列表推导,我们可以生成一对对列表,其中每对包含段落中的第一个和第二个跨度:

>>> spans = [(p.find('span', {'class': 'i'}), p.find('span', {'class': 'vi'})) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>), 
 (<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
 (<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
 # and so on
]
Run Code Online (Sandbox Code Playgroud)

现在我们有了跨度,我们可以从中获取文本:

>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
 (u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
 (u'Produkcja.........................................', u': Francja'), 
  # and so on
]
Run Code Online (Sandbox Code Playgroud)

那些文本仍然没有问题,但很容易纠正它们.要删除第一个点,我们可以使用rstrip():

>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'
Run Code Online (Sandbox Code Playgroud)

:字符串可以删除lstrip():

>>> u': Francja'.lstrip(': ')
u'Francja'
Run Code Online (Sandbox Code Playgroud)

要将其应用于所有内容,我们只需要另一个列表理解:

>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
 (u'Ocena', u'IMDB - 6.3/10 (24)'),
 (u'Produkcja', u'Francja'),
 (u'Gatunek', u'Dramat'),
 (u'Czas trwania', u'98 min.'),
 (u'Premiera', u'22.02.2012 - \u015awiat'),
 (u'Re\u017cyseria', u'Jacques Maillot'),
 (u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
 (u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Tr&eacute;gou&euml;t, Alain Beigel'),
 (u'Wi\u0119cej na', u':'),
 (u'Trailer', u':Obejrzyj zwiastun')]
Run Code Online (Sandbox Code Playgroud)

就是这样.我希望这个循序渐进的例子可以让您更好地使用BeautifulSoup.