BeautifulSoup返回不正确的文字

Question

BeautifulSoup返回不正确的文字

我正试图在下面的网站上搜索现场网球比分.当比赛结束时,我正在抓取变化,我可以获得分数,但在比赛期间,当我搜索保留分数的相关"跨度"课程时,我返回课程但分数为空白(见下文) )

http://www.scoreboard.com/game/6LeqhPJd/#game-summary

score = score.findAll('span',attrs={'class':'scoreboard'})

Run Code Online (Sandbox Code Playgroud)

输出:

[<span class="scoreboard">-</span>, <span class="scoreboard">-</span>]

Run Code Online (Sandbox Code Playgroud)

预期产出

[<span class="scoreboard">1</span>, <span class="scoreboard">0</span>]

Run Code Online (Sandbox Code Playgroud)

使用萤火虫我可以看到这些领域内的得分,但我似乎无法归还它.谁会知道为什么会发生这种情况..？

注意:当上述URL中的匹配完成后,分数的元素会发生变化.这只是LIVE比赛的一个问题......

Answer 1

unu*_*tbu 6

该网页正在使用JavaScript.如果您正在下载URL urllib,则JavaScript不会被执行.您在浏览器中看到的大部分HTML都没有生成.

执行JavaScript的一种方法是使用Selenium.另一种方法是使用PyQt4:

import sys
from PyQt4 import QtWebKit
from PyQt4 import QtCore
from PyQt4 import QtGui

class Render(QtWebKit.QWebPage):
    def __init__(self, url):
        self.app = QtGui.QApplication(sys.argv)
        QtWebKit.QWebPage.__init__(self)
        self.loadFinished.connect(self._loadFinished)
        self.mainFrame().load(QtCore.QUrl(url))
        self.app.exec_()

    def _loadFinished(self, result):
        self.frame = self.mainFrame()
        self.app.quit()

url = 'http://www.scoreboard.com/game/6LeqhPJd/#game-summary'
r = Render(url)
content = unicode(r.frame.toHtml())

Run Code Online (Sandbox Code Playgroud)

一旦你有了content(在执行JavaScript 之后)你可以使用HTML解析器(如BeautifulSoup或lxml)解析它.

例如,使用lxml:

import lxml.html as LH

def clean(text):
    return text.replace(u'\xa0', u'')

doc = LH.fromstring(content)   
result = []
for tr in doc.xpath('//tr[td[@class="left summary-horizontal"]]'):
    row = []
    for elt in tr.xpath('td'):
        row.append(clean(elt.text_content()))
    result.append(u', '.join(row[1:]))
print(u'\n'.join(result))

Run Code Online (Sandbox Code Playgroud)

产量

Chardy J. (Fra), 2, 6, 77, , , , 
Zeballos H. (Arg), 0, 4, 63, , , ,

Run Code Online (Sandbox Code Playgroud)

使用Selenium和PhantomJS(以便不弹出GUI浏览器),这就是等效代码的样子:

import selenium.webdriver as webdriver
import contextlib
import os
import lxml.html as LH

# define path to the phantomjs binary
phantomjs = os.path.expanduser('~/bin/phantomjs')
url = 'http://www.scoreboard.com/game/6LeqhPJd/#game-summary'
with contextlib.closing(webdriver.PhantomJS(phantomjs)) as driver:
    driver.get(url)
    content = driver.page_source
    doc = LH.fromstring(content)   
    result = []
    for tr in doc.xpath('//tr[td[@class="left summary-horizontal"]]'):
        row = []
        for elt in tr.xpath('td'):
            row.append(elt.text_content())
        result.append(u', '.join(row[1:]))
    print(u'\n'.join(result))

Run Code Online (Sandbox Code Playgroud)

Selenium/PhantomJS解决方案和PyQt4解决方案都需要大约相同的运行时间.

归档时间：	12 年，7 月前
查看次数：	1988 次
最近记录：	12 年，7 月前