我正在尝试为浏览器自动测试套件和能够抓取的无头浏览器平台列出可能的解决方案列表.
浏览器测试/清除:
JAVASCRIPT
Node.js的
我正在尝试开发一个简单的网络刮刀.我想在没有HTML代码的情况下提取文本.事实上,我实现了这个目标,但我已经看到在加载JavaScript的某些页面中我没有获得好的结果.
例如,如果某些JavaScript代码添加了一些文本,我看不到它,因为当我打电话时
response = urllib2.urlopen(request)
Run Code Online (Sandbox Code Playgroud)
我没有添加原始文本(因为JavaScript在客户端中执行).
所以,我正在寻找一些解决这个问题的想法.
我正在尝试使用scrapy从网页上抓取产品信息.我的待删节网页如下所示:
我试图复制next-button-ajax-call但是无法正常工作,所以我试试了selenium.我可以在一个单独的脚本中运行selenium的webdriver,但我不知道如何与scrapy集成.我应该把硒部分放在我的scrapy蜘蛛里?
我的蜘蛛非常标准,如下所示:
class ProductSpider(CrawlSpider):
name = "product_spider"
allowed_domains = ['example.com']
start_urls = ['http://example.com/shanghai']
rules = [
Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'),
]
def parse_product(self, response):
self.log("parsing product %s" %response.url, level=INFO)
hxs = HtmlXPathSelector(response)
# actual data follows
Run Code Online (Sandbox Code Playgroud)
任何想法都表示赞赏.谢谢!
如何设置Selenium以使用Python?我只想用Python编写/导出脚本,然后运行它们.有没有资源可以教我如何做到这一点?我试过谷歌搜索,但我发现的东西要么是指过时版本的Selenium(RC),要么是过时版本的Python.
我想用Python抓取一些关于url的数据. http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340
这是关于公司信息的摘要.
我要刮的东西没有显示在第一页上.通过单击名为"재무제표"的选项卡,您可以访问财务报表.点击名为"현금흐름표"的标签,即可访问"现金流量".
我想刮掉"现金流"数据.
但是,现金流量数据是通过网址上的javascript生成的.以下链接是隐藏的网址,http://stock.kisline.com/compinfo/financial/main.action?vhead = N &vfoot = N&vstay =&omit =&vwidth =
通过向此网址提交一些选项值和Cookie来生成现金流量数据.
如您所知,第一个链接中的itemcode = 078340意味着股票代码,我想要收集多达1680种股票的现金流量数据.我想让它成为一个循环结构.
是否有很好的方法来刮取现金流量数据?我试过scrapy但scrapy很难处理我已经使用的另一个刮擦代码.
我想使用Python刮的内容"是你寻找这些作者:"网页上的箱子像这样的:http://academic.research.microsoft.com/Search?query=lander
不幸的是,该框的内容由JavaScript动态加载.通常在这种情况下,我可以阅读Javascript来弄清楚发生了什么,或者我可以使用像Firebug这样的浏览器扩展来确定动态内容的来源.这次没有这样的运气...... Javascript非常复杂,Firebug没有提供很多关于如何获取内容的线索.
有什么技巧可以让这项任务变得简单吗?
python ×5
web-scraping ×5
selenium ×3
scrapy ×2
casperjs ×1
javascript ×1
phantomjs ×1
python-2.x ×1
urlopen ×1