标签: scrape

将PDF文件中的数据读入R中

这甚至可能!?!

我有一堆遗留报告需要导入数据库.但是,它们都是pdf格式.有没有R可以阅读pdf的软件包?或者我应该将其留给命令行工具?

报告是在excel中进行的,然后是pdfed,所以它们有规则的结构,但很多空白的"细胞".

linux pdf r pdf-scraping scrape

49
推荐指数
4
解决办法
2万
查看次数

使用JAVA解析网站HTML

我想解析一个简单的网站,并从该网站上抓取信息.

我曾经用DocumentBuilderFactory解析XML文件,我试图对html文件做同样的事情,但它总是陷入无限循环.

    URL url = new URL("http://www.deneme.com");
    URLConnection uc = url.openConnection();

    InputStreamReader input = new InputStreamReader(uc.getInputStream());
    BufferedReader in = new BufferedReader(input);
    String inputLine;

     FileWriter outFile = new FileWriter("orhancan");
     PrintWriter out = new PrintWriter(outFile);

    while ((inputLine = in.readLine()) != null) {
        out.println(inputLine);
    }

    in.close();
    out.close();

    File fXmlFile = new File("orhancan");
    DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
    Document doc = dBuilder.parse(fXmlFile);


    NodeList prelist = doc.getElementsByTagName("body");
    System.out.println(prelist.getLength());
Run Code Online (Sandbox Code Playgroud)

什么是问题?或者有没有更简单的方法从网站上抓取给定html标签的数据?

html java scrape

46
推荐指数
3
解决办法
9万
查看次数

从PDF python中提取/识别表

是否有支持表格识别和提取的开源库?

我的意思是:

  1. 识别存在的表结构
  2. 从表中对表进行分类
  3. 以有用的输出格式从表中提取数据,例如JSON/CSV等.

我在这个主题上看了类似的问题,发现了以下内容:

  • PDFMiner解决问题3,但似乎用户需要指定PDFMiner,其中每个表都存在表结构(如果我错了,请纠正我)
  • pdf-table-extract尝试解决问题1但是根据待办事项列表,当前无法识别由空格分隔的表.这是一个问题,因为我的PDF中的所有表都是用空格分隔的!

目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!

python pdf pdf-scraping scrape

43
推荐指数
3
解决办法
8万
查看次数

curl 302重定向不起作用(命令行)

在浏览器中,导航到此URL会启动302(暂时移动)请求,该请求又会下载文件.

http://www.targetsite.com/target.php/?event=download&task_id=123

当我通过Chrome网络工具查看实际发生的情况时,我发现重定向将转到动态生成的路径,该路径在下载后立即取消.换句话说,即使我知道完整路径,我也没有时间手动调用它.

那么,如何使用命令行我可以模仿浏览器操作?

我试过了

curl --cookies bin/cookies.txt -O -L" http://www.targetsite.com/target.php/?event=download&task_id=123 " - 压缩

但这只会带来胡言乱语.这样做的目的是以编程方式下载此文件,而无需导航到该站点.不幸的是,我不能在这里共享网站,因为它是登录后面的.

bash curl scrape

22
推荐指数
1
解决办法
4万
查看次数

仅限Wget Mirror HTML

我有一个小网站,我尝试镜像到我的本地机器只有html文件,没有图像,图像附加文件... pdf,..等.

我之前从未反映过一个网站,并认为在做任何灾难性事件之前提出这个问题是个好主意.

这是我想要运行的命令,并想知道是否应该添加任何其他内容.

wget --mirror <url> 
Run Code Online (Sandbox Code Playgroud)

谢谢!

wget mirror scrape

17
推荐指数
1
解决办法
1万
查看次数

使用JavaScript刮擦/窃听AJAX数据?

是否可以使用JavaScript来清除对使用AJAX进行实时更新的网页的所有更改?我希望每秒使用AJAX抓取更新数据的网站,我想抓住所有的变化.这是一个拍卖网站,只要用户出价,就可以更改多个对象.出价时,进行以下更改:

当前买入价当前高出价者拍卖定时器已将时间添加回其中

我希望使用基于JavaScript构建的Chrome扩展程序获取此数据.是否有JavaScript的AJAX监听器可以实现这一目标?工具包?我需要一些方向.JavaScript可以实现这个吗?

javascript ajax hook google-chrome-extension scrape

15
推荐指数
1
解决办法
6520
查看次数

Scrapy,仅遵循内部URL,但提取所有找到的链接

我想使用Scrapy从给定的网站获取所有外部链接.使用以下代码,蜘蛛也会抓取外部链接:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from myproject.items import someItem

class someSpider(CrawlSpider):
  name = 'crawltest'
  allowed_domains = ['someurl.com']
  start_urls = ['http://www.someurl.com/']

  rules = (Rule (LinkExtractor(), callback="parse_obj", follow=True),
  )

  def parse_obj(self,response):
    item = someItem()
    item['url'] = response.url
    return item
Run Code Online (Sandbox Code Playgroud)

我错过了什么?"allowed_domains"是否阻止外部链接被抓取?如果我为LinkExtractor设置"allow_domains",它不会提取外部链接.只是为了澄清:我不想抓取内部链接,但提取外部链接.任何帮助appriciated!

python web-crawler scrapy scrape scrapy-spider

14
推荐指数
2
解决办法
2万
查看次数

用于检查网页是否已更新的简单脚本

我在网站上等待一些信息.我不想每小时检查一次.我想要一个脚本来为我这样做,并通知我这个网站是否已经更新了我正在寻找的关键字.

bash scrape web

11
推荐指数
2
解决办法
2万
查看次数

Ruby中可用的网页抓取宝石/工具

我正在尝试在我正在处理的Ruby脚本中抓取网页.该项目的目的是显示哪些ETF和股票共同基金与价值投资理念最相容.

我要抓的页面的一些例子是:

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
Run Code Online (Sandbox Code Playgroud)

你为Ruby推荐什么网络抓取工具?为什么?请记住,那里有成千上万的股票基金,所以我使用的任何工具都必须相当快.

我是Ruby的新手,但我有使用lxml在Python中抓取网页的经验(https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py).一旦下载了5000多只股票的页面,lxml就可以在几分钟内完成所有这些操作.(我记得尝试过BeautifulSoup但拒绝它,因为它太慢了.)

ruby lxml html-parsing scrape

10
推荐指数
1
解决办法
9183
查看次数

从udp和http torrent tracker响应中获取IP地址

我试图从torrent跟踪器获取peer-list:IP地址列表

与此处的问题类似:如何从torrent跟踪器响应中获取对等列表

我写的代码,解码使用Python torrent文件bencode位种子库 我写的代码下面这段代码在这里凑洪流跟踪.

至少对于像mininova tracker这样的http请求,我得到了特定info_hash的以下输出

{'files': {'\xbf\xff&\xcdY\x05\x9b\xb2C2j\x83\xf5F_\x9bg\x9d\xe2G': {'downloaded': 25416, 'complete': 12, 'incomplete': 0}}}
Run Code Online (Sandbox Code Playgroud)

我没有看到任何其他的按键了BitTorrent的文件,这里的规范.(比如tracker_id,min_interval,peer ...等)

我如何获得同行列表?

python bittorrent tracker scrape

10
推荐指数
1
解决办法
2936
查看次数