这甚至可能!?!
我有一堆遗留报告需要导入数据库.但是,它们都是pdf格式.有没有R可以阅读pdf的软件包?或者我应该将其留给命令行工具?
报告是在excel中进行的,然后是pdfed,所以它们有规则的结构,但很多空白的"细胞".
我有以下示例代码,我从欧洲议会网站上下载了一份特定立法提案的pdf:
编辑:我最终只是获取链接并将其提供给adobes在线转换工具(请参阅下面的代码):
import mechanize
import urllib2
import re
from BeautifulSoup import *
adobe = "http://www.adobe.com/products/acrobat/access_onlinetools.html"
url = "http://www.europarl.europa.eu/oeil/search_reference_procedure.jsp"
def get_pdf(soup2):
link = soup2.findAll("a", "com_acronym")
new_link = []
amendments = []
for i in link:
if "REPORT" in i["href"]:
new_link.append(i["href"])
if new_link == None:
print "No A number"
else:
for i in new_link:
page = br.open(str(i)).read()
bs = BeautifulSoup(page)
text = bs.findAll("a")
for i in text:
if re.search("PDF", str(i)) != None:
pdf_link = "http://www.europarl.europa.eu/" + i["href"]
pdf = urllib2.urlopen(pdf_link)
name_pdf = …Run Code Online (Sandbox Code Playgroud) 我正试图通过Poppler及其(缺乏)文档.
我想做的是一个非常简单的事情:打开一个PDF文件并阅读其中的文本.我接下来要处理文本,但这并不重要.
所以...我看到了这个poppler_page_get_text功能,它有点工作,但我必须指定一个选择矩形,这不是很方便.是不是只有一个非常简单的函数可以按顺序输出PDF文本(可能是逐行?).