小编Mic*_*ser的帖子

R - 带输入的网络抓取动态形式

我正在努力在R中完成以下任务.该网站提供了印度农业数据的分区级统计数据(表格):http://agcensus.dacnet.nic.in/tehsilsummarytype.aspx 我的理解是这个被称为动态表单,因为选项根据所做的条目而变化.具体来说,我想下载表格:

  1. 州=安得拉邦
  2. 区= Adilabad,Anantapur,Kadapa,...(共8个)
  3. Tahsil = Mancherial,Kasipet(这些只是区域= Adilabad的2个例子;总共158个)

然后我希望所有社交群体,所有性别和总数的"按大小平均控制".

基于这篇文章如果我想用R抓取带有参数的页面的网页怎么办?我认为要采用的方法是使用getHTMLFormDescription().但是,由于我的表格是动态的,我不能按照其他帖子中建议的路线.createFunction()行返回一个错误:"*writeFunction中的错误(formDescription,character(),url,con,verbose = verbose,:你应该在这里提供一个表单描述.参见getFormDescription()."

在可以从omegahat网页下载的RHTMLForms包中,有这个功能(顾名思义)应该做我需要的:

function function(desc, omit = character(), drop = TRUE, ..., verbose = FALSE) {
# Discard the elements that we are omitting.
 if(length(omit)) {
   idx = match(omit, names(desc$elements), 0)
  k = class(desc$elements)
 desc$elements <- desc$elements[-idx]
class(desc$elements) = k }

 # If no more elements left as a result of omitting them, just return the description
 # as there are definitely no more …
Run Code Online (Sandbox Code Playgroud)

html asp.net r dynamic web-scraping

3
推荐指数
1
解决办法
3296
查看次数

标签 统计

asp.net ×1

dynamic ×1

html ×1

r ×1

web-scraping ×1