当我想要显示Adobe PDF查看器时,哪个是在我的HTML文件中使用的正确/最佳标记?现在我正在使用下面的代码,但是有一些奇怪的副作用(例如它似乎窃取了我设置到另一个INPUT文本框的起始焦点;它似乎与jQueryUI Resizeable类没有很好地兼容;等)
<embed src="abc.pdf" type="application/pdf" />
Run Code Online (Sandbox Code Playgroud)
我甚至可以用OBJECT标签做同样的事情吗?使用一个标签与另一个标签有利有弊吗?
我正在开发一个项目,它从用户那里获取一些图像,然后创建一个包含所有这些图像的PDF文件.
在Python中有没有办法或任何工具?例如,从image1 + image 2 + image 3 - > PDF文件创建PDF文件(或eps,ps)?
我知道pdftk.exe
可以指示PDF使用哪些字体的实用程序,以及它们是否嵌入.
现在的问题是:鉴于我有嵌入字体的PDF文件 - 如何以可重复使用的常规字体文件的形式提取这些字体?是否有(最好是免费的)工具可以做到这一点?另外:这可以用iText以编程方式完成吗?
是否可以在PDF中嵌入动画GIF?我怎么可能这样做呢?我应该注意哪些危险?
有关我为什么认为这是一件好事的更多细节,以及它如何帮助我们自由地看到这篇文章.我认为它不适合SE的形式.
举个例子 - 我想把它写成quicksort的描述:
我正在尝试使用提取此 PDF文件中包含的文本Python
.
我正在使用PyPDF2模块,并具有以下脚本:
import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content
Run Code Online (Sandbox Code Playgroud)
当我运行代码时,我得到以下输出,该输出与PDF文档中包含的输出不同:
!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%
Run Code Online (Sandbox Code Playgroud)
如何在PDF文档中提取文本?
任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.
我们希望以数据xml
或json
格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.
是否有以编程方式从pdf中提取文本的替代品(商业或免费)?
我有一个由itext自动生成的PDF文件,我需要以HTML格式显示该PDF文件.我的问题是:如何使用pdf.js以HTML格式显示本地PDF文件?这个PDF文件应该由某些标准生成吗?
我需要从现有的(X)HTML文档自动生成PDF文件.输入文件(报告)使用相当简单的基于表格的布局,因此可能不需要支持真正花哨的JavaScript/CSS内容.
由于我习惯于使用Java,因此最好能够在java项目中轻松使用.但它只需要在Windows系统上工作.
一种方法是可行的,但不能产生高质量的输出(至少开箱即用)是使用CSS2XSLFO和Apache FOP来创建PDF文件.我遇到的问题是,虽然很好地转换了CSS属性,但表格布局非常混乱,文本流出表格单元格.
我还快速浏览了Jrex,这是一个使用Gecko渲染引擎的Java-API.
有没有办法从Internet Explorer渲染引擎中获取渲染页面并自动将其发送到PDF-Printer工具?我没有windows中的OLE编程经验,所以我不知道什么是可能的,什么不是.
你有好主意吗?
编辑:FlyingSaucer/iText看起来很有前途.我会尽力去做.
感谢所有的答案
我在我的网页上提供pdf文件的链接供下载,如下所示
<a href="myfile.pdf">Download Brochure</a>
Run Code Online (Sandbox Code Playgroud)
问题是当用户点击此链接时
但我希望它总是弹出给用户下载,无论是否安装了"Adobe acrobat".
请告诉我怎么做到这一点?