哪些是将PDF文件转换为文本的最佳Python模块?
这甚至可能!?!
我有一堆遗留报告需要导入数据库.但是,它们都是pdf格式.有没有R可以阅读pdf的软件包?或者我应该将其留给命令行工具?
报告是在excel中进行的,然后是pdfed,所以它们有规则的结构,但很多空白的"细胞".
是否有支持表格识别和提取的开源库?
我的意思是:
我在这个主题上看了类似的问题,发现了以下内容:
目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!
我听说人们一直在写这些程序,我知道他们做了什么,但他们是如何做到的呢?我正在寻找一般概念.
screen-scraping html-content-extraction pdf-scraping web-scraping console-scraping
我正在尝试从一些pdf报告中的表中提取数据.
我已经看到一些使用pdftools和类似软件包的例子我成功获取了文本,但是,我只想提取表格.
有没有办法使用R来识别和提取表格?
我试图刮掉跨越多个页面的PDF表格.我试过很多东西,但最好的似乎是 pdftotext -layout为这里建议.问题是生成的文本文件不易使用,因为表格布局在页面之间不同,因此列不对齐.另请注意以"Solsonès"开头的行中缺少的值:
TEMPERATURA MITJANA MENSUAL ( ºC ) - 2012
COMARCA CODI i NOM EMA GEN FEB MAR ABR MAI JUN JUL AGO SET OCT N
Alt Camp VY Nulles 7,5 5,5 10,9 12,3 16,7 21,6 22,3 24,4 20,1 15,9
Alt Camp DQ Vila-rodona 7,9 5,6 11,0 12,0 16,6 21,6 22,0 24,3 19,9 15,8
Alt Empordà U1 Cabanes 8,2 6,5 11,7 12,6 17,5 22,0 23,1 24,4 20,4 16,6
Alt Empordà W1 Castelló d'Empúries 8,1 …Run Code Online (Sandbox Code Playgroud) 在Python中,我使用pdfminer从pdf中读取文本,并在此消息下面显示代码.我现在收到一条错误消息:
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages
raise PDFTextExtractionNotAllowed('Text extraction is not allowed: %r' % fp)
PDFTextExtractionNotAllowed: Text extraction is not allowed: <cStringIO.StringO object at 0x7f79137a1
ab0>
Run Code Online (Sandbox Code Playgroud)
当我用Acrobat Pro打开这个pdf时,它证明它是安全的(或"读保护").但是,从这个链接,我读到有很多服务可以轻松禁用这种读保护(例如pdfunlock.com.当潜入pdfminer的源代码时,我看到上面的错误是在这些行上生成的.
if check_extractable and not doc.is_extractable:
raise PDFTextExtractionNotAllowed('Text extraction is not allowed: %r' % fp)
Run Code Online (Sandbox Code Playgroud)
由于有许多服务可以在一秒钟内禁用这种读保护,我认为这很容易做到.它似乎.is_extractable是一个简单的属性doc,但我认为它不像.is_extractable改为True 那么简单.
有谁知道如何使用Python禁用pdf上的读保护?欢迎所有提示!
================================================
您将在下面找到我目前从非读保护中提取文本的代码.
def getTextFromPDF(rawFile):
resourceManager = PDFResourceManager(caching=True)
outfp = StringIO()
device = TextConverter(resourceManager, outfp, codec='utf-8', laparams=LAParams(), imagewriter=None)
interpreter = PDFPageInterpreter(resourceManager, …Run Code Online (Sandbox Code Playgroud) 我正在使用python 3.5,我想从pdf文件中逐行阅读文本.试图使用pdfminer3k但没有在任何地方获得正确的语法.如何正确使用?
我需要根据文件内容将大型pdf文档拆分为较小的文件.我们使用BCL easyPDF来操作pdf文件.easyPDF可以根据页码拆分pdf文档,但不能根据文件内容拆分文档.它也没有搜索功能(据我所知,如果我错了请有人让我知道.)确定内容的位置.
现在有人可以告诉我如何使用.net在pdf文件中找到文本的位置吗?
谢谢
pdf-scraping ×10
pdf ×6
python ×3
r ×3
scrape ×2
c# ×1
html ×1
linux ×1
ms-access ×1
parsing ×1
pdfminer ×1
perl ×1
python-3.5 ×1
python-3.x ×1
text-mining ×1
web-scraping ×1