标签: pdf-scraping

378
推荐指数
9
解决办法
32万
查看次数

将PDF文件中的数据读入R中

这甚至可能!?!

我有一堆遗留报告需要导入数据库.但是,它们都是pdf格式.有没有R可以阅读pdf的软件包?或者我应该将其留给命令行工具?

报告是在excel中进行的,然后是pdfed,所以它们有规则的结构,但很多空白的"细胞".

linux pdf r pdf-scraping scrape

49
推荐指数
4
解决办法
2万
查看次数

从PDF python中提取/识别表

是否有支持表格识别和提取的开源库?

我的意思是:

  1. 识别存在的表结构
  2. 从表中对表进行分类
  3. 以有用的输出格式从表中提取数据,例如JSON/CSV等.

我在这个主题上看了类似的问题,发现了以下内容:

  • PDFMiner解决问题3,但似乎用户需要指定PDFMiner,其中每个表都存在表结构(如果我错了,请纠正我)
  • pdf-table-extract尝试解决问题1但是根据待办事项列表,当前无法识别由空格分隔的表.这是一个问题,因为我的PDF中的所有表都是用空格分隔的!

目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!

python pdf pdf-scraping scrape

43
推荐指数
3
解决办法
8万
查看次数

如何将PDF转换为HTML?

使用任何通用语言将PDF转换为HTML有哪些好的库?

html pdf pdf-scraping

28
推荐指数
1
解决办法
2万
查看次数

屏幕刮刀如何工作?

我听说人们一直在写这些程序,我知道他们做了什么,但他们是如何做到的呢?我正在寻找一般概念.

screen-scraping html-content-extraction pdf-scraping web-scraping console-scraping

20
推荐指数
3
解决办法
2万
查看次数

使用R识别PDF表

我正在尝试从一些pdf报告中的表中提取数据.

我已经看到一些使用pdftools和类似软件包的例子我成功获取了文本,但是,我只想提取表格.

有没有办法使用R来识别和提取表格?

r text-mining pdf-scraping

20
推荐指数
2
解决办法
1万
查看次数

刮掉跨越多个页面的大型pdf表

我试图刮掉跨越多个页面的PDF表格.我试过很多东西,但最好的似乎是 pdftotext -layout这里建议.问题是生成的文本文件不易使用,因为表格布局在页面之间不同,因此列不对齐.另请注意以"Solsonès"开头的行中缺少的值:

                                                                        TEMPERATURA MITJANA MENSUAL ( ºC ) - 2012

COMARCA          CODI i NOM EMA                    GEN    FEB    MAR         ABR       MAI      JUN      JUL          AGO        SET        OCT        N

Alt Camp         VY   Nulles                        7,5    5,5   10,9         12,3     16,7     21,6     22,3         24,4       20,1        15,9
Alt Camp         DQ   Vila-rodona                   7,9    5,6   11,0         12,0     16,6     21,6     22,0         24,3       19,9        15,8
Alt Empordà      U1   Cabanes                       8,2    6,5   11,7         12,6     17,5     22,0     23,1         24,4       20,4        16,6
Alt Empordà      W1   Castelló d'Empúries           8,1 …
Run Code Online (Sandbox Code Playgroud)

perl ms-access r pdf-scraping

15
推荐指数
3
解决办法
3288
查看次数

如何在Python中解锁"安全"(读保护)PDF?

在Python中,我使用pdfminer从pdf中读取文本,并在此消息下面显示代码.我现在收到一条错误消息:

File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages
    raise PDFTextExtractionNotAllowed('Text extraction is not allowed: %r' % fp)
PDFTextExtractionNotAllowed: Text extraction is not allowed: <cStringIO.StringO object at 0x7f79137a1
ab0>
Run Code Online (Sandbox Code Playgroud)

当我用Acrobat Pro打开这个pdf时,它证明它是安全的(或"读保护").但是,从这个链接,我读到有很多服务可以轻松禁用这种读保护(例如pdfunlock.com.当潜入pdfminer的源代码时,我看到上面的错误是在这些行上生成的.

if check_extractable and not doc.is_extractable:
    raise PDFTextExtractionNotAllowed('Text extraction is not allowed: %r' % fp)
Run Code Online (Sandbox Code Playgroud)

由于有许多服务可以在一秒钟内禁用这种读保护,我认为这很容易做到.它似乎.is_extractable是一个简单的属性doc,但我认为它不像.is_extractable改为True 那么简单.

有谁知道如何使用Python禁用pdf上的读保护?欢迎所有提示!

================================================

您将在下面找到我目前从非读保护中提取文本的代码.

def getTextFromPDF(rawFile):
    resourceManager = PDFResourceManager(caching=True)
    outfp = StringIO()
    device = TextConverter(resourceManager, outfp, codec='utf-8', laparams=LAParams(), imagewriter=None)
    interpreter = PDFPageInterpreter(resourceManager, …
Run Code Online (Sandbox Code Playgroud)

python pdf pdf-scraping pdfminer

14
推荐指数
3
解决办法
2万
查看次数

如何使用pdfminer3k阅读pdf文件?

我正在使用python 3.5,我想从pdf文件中逐行阅读文本.试图使用pdfminer3k但没有在任何地方获得正确的语法.如何正确使用?

pdf-scraping python-3.x python-3.5

10
推荐指数
2
解决办法
1万
查看次数

解析pdf文件

我需要根据文件内容将大型pdf文档拆分为较小的文件.我们使用BCL easyPDF来操作pdf文件.easyPDF可以根据页码拆分pdf文档,但不能根据文件内容拆分文档.它也没有搜索功能(据我所知,如果我错了请有人让我知道.)确定内容的位置.

现在有人可以告诉我如何使用.net在pdf文件中找到文本的位置吗?

谢谢

c# pdf parsing pdf-scraping

8
推荐指数
1
解决办法
2万
查看次数