小编n6g*_*6g7的帖子

使用scrapy刮掉没有javascript代码的文本

我目前正在使用scrapy设置一堆蜘蛛.这些蜘蛛应该只从目标网站中提取文本(文章,论坛帖子,段落等).

问题是:有时,我的目标节点包含一个<script>标记,因此被删除的文本包含javascript代码.

这是我正在使用的一个真实例子的链接.在这种情况下,我的目标节点是//td[@id='contenuStory'].问题是<script>第一个子div 中有一个标记.

我花了很多时间在网上和SO上搜索解决方案,但我找不到任何东西.我希望我没有错过任何明显的东西!

例

HTML响应(仅限目标节点):

<div id="content">
    <div id="part1">Some text</div>
    <script>var s = 'javascript I don't want';</script>
    <div id="part2">Some other text</div>
</div>

Run Code Online (Sandbox Code Playgroud)

我想要的东西:

Some text
Some other text

Run Code Online (Sandbox Code Playgroud)

我得到了什么:

Some text
var s = 'javascript I don't want';
Some other text

Run Code Online (Sandbox Code Playgroud)

我的代码

给定一个xpath选择器我正在使用以下函数来提取文本:

def getText(hxs):
    if len(hxs) > 0:
        l = hxs.select('string(.)')
        if len(l) > 0:
            s = l[0].extract().encode('utf-8')
        else:
            s = hxs[0].extract().encode('utf-8')
        return s …

Run Code Online (Sandbox Code Playgroud)

python xpath scrapy

n6g*_*6g7

lucky-day

5
推荐指数

1
解决办法

1945
查看次数