相关疑难解决方法(0)

将PDF文件中的数据读入R中

这甚至可能!？!

我有一堆遗留报告需要导入数据库.但是,它们都是pdf格式.有没有R可以阅读pdf的软件包？或者我应该将其留给命令行工具？

报告是在excel中进行的,然后是pdfed,所以它们有规则的结构,但很多空白的"细胞".

linux pdf r pdf-scraping scrape

49
推荐指数

4
解决办法

2万
查看次数

如何在R中阅读pdf文件

有人可以帮助我让我知道如何阅读包含一些表格的 pdf 文件。我想提取表中的数据，并安排到csv文件。

非常感谢

許曉雯*_*許曉雯

6
推荐指数

2
解决办法

2万
查看次数

在python中将pdf转换为text/html,以便我可以解析它

我有以下示例代码,我从欧洲议会网站上下载了一份特定立法提案的pdf:

编辑:我最终只是获取链接并将其提供给adobes在线转换工具(请参阅下面的代码):

import mechanize
import urllib2
import re
from BeautifulSoup import *

adobe = "http://www.adobe.com/products/acrobat/access_onlinetools.html"

url = "http://www.europarl.europa.eu/oeil/search_reference_procedure.jsp"

def get_pdf(soup2):
    link = soup2.findAll("a", "com_acronym")
    new_link = []
    amendments = []
    for i in link:
        if "REPORT" in i["href"]:
            new_link.append(i["href"])
    if new_link == None:
        print "No A number"
    else:
        for i in new_link:
            page = br.open(str(i)).read()
            bs = BeautifulSoup(page)
            text = bs.findAll("a")
            for i in text:
                if re.search("PDF", str(i)) != None:
                    pdf_link = "http://www.europarl.europa.eu/" + i["href"]
            pdf = urllib2.urlopen(pdf_link)
            name_pdf = …

Run Code Online (Sandbox Code Playgroud)

python pdf parsing text

4
推荐指数

2
解决办法

2万
查看次数

使用Poppler(C++)从PDF中提取文本

我正试图通过Poppler及其(缺乏)文档.

我想做的是一个非常简单的事情:打开一个PDF文件并阅读其中的文本.我接下来要处理文本,但这并不重要.

所以...我看到了这个poppler_page_get_text功能,它有点工作,但我必须指定一个选择矩形,这不是很方便.是不是只有一个非常简单的函数可以按顺序输出PDF文本(可能是逐行？).

c++ pdf text-extraction poppler

3
推荐指数

2
解决办法

1万
查看次数

标签统计

pdf ×4

r ×2

c++ ×1

pdf-scraping ×1

text ×1

text-extraction ×1