相关疑难解决方法(0)

使用R将字段添加到在线表单并刮取生成的javascript创建表

我试图让R在这个网页http://cti.voa.gov.uk/cti/上用预定义的文本(例如BN1 1NA)完成"通过邮政编码搜索"字段,前进到下一页并抓取结果4列表,根据邮政编码,可以在多个页面上.为了使其更复杂,"改进指标"不是文本字段,而是图像文件(如果使用邮政编码BN1 3HP进行搜索,则会看到).我希望此列包含0或1,具体取决于图像是否存在.

最终,我追随一个很好的数据框架,它反映了屏幕上的4列.

我试图修改这个问题的建议去做我上面描述的没有运气的事情,说实话我试图破译这个问题.

我意识到R可能不是最适合我需要做的事情,但这些都是我可以使用的.任何帮助将不胜感激.

javascript r web-scraping phantomjs rselenium

13
推荐指数
1
解决办法
902
查看次数

如何使用R自动化对Web搜索表单的多个请求

我想学习如何使用RCurl(或其他合适的R包,如果我错了RCurl是正确的工具)来自动在数据文件中提交的搜索字词,以网络的形式,并把搜索结果的过程.我正在处理的具体问题如下:

我有一个数据文件给出了几辆汽车的车牌号码(LPN)和车辆识别号码(VIN).汽车的加利福尼亚部门(DMV)有让您输入LPN和VIN的最后五位数字的网页搜索形式,它返回的车辆牌照费,2010年或2009年(VLF)支付(有一个选择在输入表格上也是如此).(仅供参考:这是一个研究项目,用于查看车辆制造,型号和型号年份的VLF支付分布情况)

我可以通过手动输入每辆车数据的繁琐过程,然后手动将结果输入电子表格.但这是21世纪,我想尝试自动化这个过程.我想编写一个脚本,将每个LPN和VIN提交到DMV Web表单,然后将结果(VLF支付)放入我的数据文件中的新VLF变量中,重复执行此操作直到它到达列表末尾LPN和VIN.(顺便说一句,DMV网络表格就在这里:https: //www.dmv.ca.gov/FeeCalculatorWeb/vlfForm.do).

我的计划是使用getHTMLFormDescription()(在RHTMLForms包),找出输入字段的名称,然后使用getForm()或postForm()(在RCurl包)来检索输出.不幸的是,我在第一步陷入困境.这是我使用的R命令和输出:

> forms = getHTMLFormDescription("https://www.dmv.ca.gov/FeeCalculatorWeb/vlfForm.do")
Error in htmlParse(url, ...) : 
  File https://www.dmv.ca.gov/FeeCalculatorWeb/vlfForm.do does not exist 
Run Code Online (Sandbox Code Playgroud)

不幸的是,对于R来说相对较新,而且几乎全新的HTTP和网络抓取,我不知道下一步该怎么做.

首先,有谁知道为什么我的getHTMLFormDescription()调用出错?或者,还有另一种方法可以找出输入字段的名称吗?

其次,您能否建议一些示例代码来帮助我开始实际提交LPN和VIN并检索输出?getForm()或postForm()是正确的方法还是我应该做其他事情?如果要提交一些真正的LPN-VIN组合会有所帮助,这里有三个:
LPN VIN
5MXH018
30135 4TOL562
74735 5CWR968 11802

最后,因为你可以看到我是一个完整的新手,你是否有我需要学习的建议,以便熟练掌握这种网络抓取以及如何去学习它(用R或另一种语言) )?对网站,书籍,列表服务器,其他StackOverflow问题等的具体建议会很棒.

谢谢你的帮助.

r web-scraping

12
推荐指数
1
解决办法
1万
查看次数

标签 统计

r ×2

web-scraping ×2

javascript ×1

phantomjs ×1

rselenium ×1