相关疑难解决方法(0)

Scrapy,URL上的哈希标记

我正处于使用Scrapy的废料项目的中间.

我意识到Scrapy会将URL从哈希标记剥离到最后.

这是shell的输出:

[s]   request    <GET http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C#/ref=sr_nr_p_8_0?rh=n%3A165796011%2Cn%3A%212334086011%2Cn%3A%212334148011%2Cn%3A3006339011%2Cp_8%3A2229010011&bbn=3006339011&ie=UTF8&qid=1309631658&rnid=598357011>
[s]   response   <200 http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C>
Run Code Online (Sandbox Code Playgroud)

这确实影响了我的报废,因为经过几个小时试图找出为什么没有选择某个项目,我意识到长网址提供的HTML与短网站提供的HTML不同.此外,经过一些观察,内容在一些关键部分发生了变化.

有没有办法修改此行为,以便Scrapy保留整个URL?

感谢您的反馈和建议.

python url scrapy web-scraping

4
推荐指数
1
解决办法
2729
查看次数

标签 统计

python ×1

scrapy ×1

url ×1

web-scraping ×1