我正处于使用Scrapy的废料项目的中间.
我意识到Scrapy会将URL从哈希标记剥离到最后.
这是shell的输出:
[s] request <GET http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C#/ref=sr_nr_p_8_0?rh=n%3A165796011%2Cn%3A%212334086011%2Cn%3A%212334148011%2Cn%3A3006339011%2Cp_8%3A2229010011&bbn=3006339011&ie=UTF8&qid=1309631658&rnid=598357011>
[s] response <200 http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C>
Run Code Online (Sandbox Code Playgroud)
这确实影响了我的报废,因为经过几个小时试图找出为什么没有选择某个项目,我意识到长网址提供的HTML与短网站提供的HTML不同.此外,经过一些观察,内容在一些关键部分发生了变化.
有没有办法修改此行为,以便Scrapy保留整个URL?
感谢您的反馈和建议.