小编cas*_*ker的帖子

使用scrapy.js通过启动爬网onclick页面

我正在尝试从使用javascript之类的页面获取网址

<span onclick="go1()">click here </span>
<script>function go1(){
        window.location = "../innerpages/" + myname + ".php";
    }
</script>
Run Code Online (Sandbox Code Playgroud)

这是我的代码使用scrapyjs与飞溅

def start_requests(self):
    for url in self.start_urls:
        yield Request(url, self.parse, meta={
            'splash': {
                'endpoint': 'render.html',
                'args': {'wait': 4, 'html': 1, 'png': 1, 'render_all': 1, 'js_source': 'document.getElementsByTagName("span")[0].click()'},
            }
        })
Run Code Online (Sandbox Code Playgroud)

如果我写

'js_source': 'document.title="hello world"'
Run Code Online (Sandbox Code Playgroud)

它会工作

似乎我可以处理页面内的文本,但无法从URL获取 go1()

如果我想获取网址,该怎么办 go1()

谢谢!

python splash-screen scrapy scrapyjs

4
推荐指数
1
解决办法
2138
查看次数

标签 统计

python ×1

scrapy ×1

scrapyjs ×1

splash-screen ×1