标签: pdfbox

Apache PDFBox Java库 - 是否有用于创建表的API?

我正在使用Apache PDFBox java库来创建PDF.有没有办法使用pdfbox创建数据表?如果没有这样的API,我需要使用drawLine等手动绘制表格,有关如何进行此操作的任何建议吗?

java apache graphics pdfbox

26
推荐指数
4
解决办法
3万
查看次数

如何使用Apache PDFBox创建表

我们计划将我们的pdf生成实用程序从iText迁移到PDFBox(由于iText中的许可问题).通过一些努力,我能够编写和定位文本,绘制线条等.但是创建表格中嵌入文本的表格是一个挑战,我通过文档,示例,Google,Stackoverflow找不到任何东西.想知道PDFBox是否为创建带有嵌入文本的表提供本机支持.我的最后一招是使用此链接https://github.com/eduardohl/Paginated-PDFBox-Table-Sample

java pdf pdfbox

26
推荐指数
2
解决办法
4万
查看次数

如何使用java从pdf文件中获取原始文本

我有一些pdf文件,使用pdfbox我已将它们转换为文本并存储到文本文件中,现在从我要删除的文本文件

  1. 超链接
  2. 所有特殊字符
  3. 空白行
  4. 标题页脚的pdf文件
  5. "1)","2)","a)","子弹"等

我希望逐行获得有效的文本,如下所示:

我们提出了OntoGain,一种从纯文本中提取的多词概念术语进行本体学习的方法.OntoGain遵循由不同处理层定义的本体学习过程.在简单术语提取的基础上,通过聚类提取的概念来形成概念层次结构.然后,衍生的术语分类法充满了非分类关系.已经研究了几种不同的最先进的方法来实现每一层.OntoGain基于多词术语概念,因为多词或复合词具有比普通单词词更加坚实和独特的语义.我们选择了层次聚类方法和形式概念分析(FCA)算法来构建术语分类法.此外,应用关联规则算法来揭示非分类关系.还实现了一种尝试在关系概念之间执行最合适的泛化级别的方法.为了显示概念证明,实现了系统原型.OntoGain允许使用Jena Semantic Web Frame-work1将派生的本体转换为OWL.OntoGain应用于医学和计算机语料库两个独立的数据源,并将其结果与Text2Onto(一种最先进的本体学习方法)获得的类似结果进行比较.对11.5 CCD1.1结果的分析表明,OntoGain在精度方面比Text20nto表现更好,提取更正确的概念,而更有选择性地提取更少但更合理的概念.

我怎样才能做到这一点?

java pdf pdfbox

25
推荐指数
4
解决办法
8万
查看次数

PDFBox - 查找页面尺寸

如何使用PDFBox找到(以mm为单位)pdf页面的宽度和高度?目前,我正在使用这个:

System.out.println(page.getMediaBox().getHeight());
System.out.println(page.getMediaBox().getWidth());
Run Code Online (Sandbox Code Playgroud)

但结果是(不是mm):

842.0
595.22
Run Code Online (Sandbox Code Playgroud)

java pdf pdfbox

25
推荐指数
2
解决办法
3万
查看次数

如何将PDFBox添加到Android项目或建议替代方案

我正在尝试打开现有的pdf文件,然后在Android应用程序中向pdf文档添加另一个页面.在添加的页面上,我需要添加一些文本和图像.

我想试试PDFBox.由于许可条款/价格,iTextPDF等其他解决方案不适合我们公司.

我有一个带有主代码库的库项目,还有引用库项目的full和lite项目.

我从http://pdfbox.apache.org/download.html下载了jar 并将其复制到库项目lib文件夹中,并将pdfbox-app-1.6.0.jar文件添加到java构建路径库中.

我能够成功导入图书馆,import org.apache.pdfbox.pdmodel.PDDocument;并编译所有项目.但是,当我运行该应用程序时,它崩溃PDDocument document = new PDDocument();并出现以下错误.

E/AndroidRuntime(24451):java.lang.NoClassDefFoundError:org.apache.pdfbox.pdmodel.PDDocument

我在某处看到PDFBox版本1.5以后不适用于Android,所以我尝试下载pdfbox-app-1.4.0.jar文件,但遇到了同样的问题.我还在我的完整和精简版项目中将库添加到构建路径中,但是我得到了相同的错误或者eclipse因内存不足错误而崩溃.

谁能告诉我我做错了什么?我下载了错误的文件吗?我是否正确导入了它?

谢谢,

pdf android pdfbox

24
推荐指数
2
解决办法
2万
查看次数

线程"main"中的异常java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactory

我在java中使用pdfbox将pdf转换为图像.但是当我编译时,我收到了消息

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory.

这是我关注的代码.请帮助我摆脱这个错误.

java pdfbox

20
推荐指数
2
解决办法
8万
查看次数

使用PDFBox加水印

我正在尝试使用PDFBox专门为PDF添加水印.我已经能够让图像显示在每个页面上,但它会失去背景透明度,因为它看起来好像PDJpeg将其转换为JPG.也许有一种方法可以使用PDXObjectImage来完成它.

这是我到目前为止所写的内容:

public static void watermarkPDF(PDDocument pdf) throws IOException
{
    // Load watermark
    BufferedImage buffered = ImageIO.read(new File("C:\\PDF_Test\\watermark.png"));
    PDJpeg watermark = new PDJpeg(pdf, buffered);

    // Loop through pages in PDF
    List pages = pdf.getDocumentCatalog().getAllPages();
    Iterator iter = pages.iterator();
    while(iter.hasNext())
    {
        PDPage page = (PDPage)iter.next();

        // Add watermark to individual page
        PDPageContentStream stream = new PDPageContentStream(pdf, page, true, false);
        stream.drawImage(watermark, 100, 0);
        stream.close();
    }

    try 
    {
        pdf.save("C:\\PDF_Test\\watermarktest.pdf");
    } 
    catch (COSVisitorException e) 
    {
        e.printStackTrace();
    }
}
Run Code Online (Sandbox Code Playgroud)

java pdf watermark image pdfbox

19
推荐指数
3
解决办法
2万
查看次数

在Android中生成Pdf的缩略图

我想从pdf文件生成图像(缩略图),就像WhatsApp所做的那样,如下所示 WhatsApp的

我试过了

  1. PDFBox(https://github.com/TomRoush/PdfBox-Android)
  2. Tika(编译'org.apache.tika:tika-parsers:1.11')
  3. AndroidPdfViewer(https://github.com/barteksc/AndroidPdfViewer)

仍然无法找到从pdf生成图像的方法.


PDFBox的:

有一个github问题可以解决这个问题(https://github.com/TomRoush/PdfBox-Android/issues/3),但这仍然没有得到解决.

注意:我已成功使用PDFBOX从PDF中提取图像


AndroidPdfViewer:

Github问题(https://github.com/barteksc/AndroidPdfViewer/issues/49)

pdf android image pdfbox

19
推荐指数
2
解决办法
1万
查看次数

使用PDFBox从PDF文档中读取特定页面

如何使用PDFBox从PDF文档中读取特定页面(给定页码)?

java pdf pdfbox

18
推荐指数
2
解决办法
5万
查看次数

将PDF文件转换为图像

我想将PDF文档转换为图像.我在使用Ghost4j.

问题: Ghost4J需要gsdll32.dll文件在运行时,我也并不想使用的DLL文件.

问题1:有什么办法,在ghost4j中转换图像而不用dll?

问题2:我在PDFBox API中找到了解决方案.org.apache.pdfbox.pdmodel.PDPagep have methodconvertToImage()`将PDF页面转换为图像格式.

PDDocument doc = PDDocument.load(new File("/document.pdf"));
List<PDPage>pages =  doc.getDocumentCatalog().getAllPages();
PDPage page = pages.get(0);
BufferedImage image =page.convertToImage();
File outputfile = new File("/image.png");
ImageIO.write(image, "png", outputfile);
doc.close();
Run Code Online (Sandbox Code Playgroud)

我在PDF文档上只有文字.当我运行此代码时,我有这个例外:

Aug 12, 2013 6:00:24 PM org.apache.pdfbox.util.PDFStreamEngine processOperator
INFO: unsupported/disabled operation: BDC
Exception in thread "main" java.lang.ExceptionInInitializerError
    at org.apache.pdfbox.pdmodel.font.PDTrueTypeFont.getawtFont(PDTrueTypeFont.java:481)
    at org.apache.pdfbox.pdmodel.font.PDSimpleFont.drawString(PDSimpleFont.java:109)
    at org.apache.pdfbox.pdfviewer.PageDrawer.processTextPosition(PageDrawer.java:235)
    at org.apache.pdfbox.util.PDFStreamEngine.processEncodedText(PDFStreamEngine.java:496)
    at org.apache.pdfbox.util.operator.ShowTextGlyph.process(ShowTextGlyph.java:62)
    at org.apache.pdfbox.util.PDFStreamEngine.processOperator(PDFStreamEngine.java:554)
    at org.apache.pdfbox.util.PDFStreamEngine.processSubStream(PDFStreamEngine.java:268)
    at org.apache.pdfbox.util.PDFStreamEngine.processSubStream(PDFStreamEngine.java:235)
    at org.apache.pdfbox.util.PDFStreamEngine.processStream(PDFStreamEngine.java:215)
    at org.apache.pdfbox.pdfviewer.PageDrawer.drawPage(PageDrawer.java:125)
    at org.apache.pdfbox.pdmodel.PDPage.convertToImage(PDPage.java:781)
    at org.apache.pdfbox.pdmodel.PDPage.convertToImage(PDPage.java:712)
    at …
Run Code Online (Sandbox Code Playgroud)

java pdf pdf-generation pdfbox ghost4j

18
推荐指数
2
解决办法
5万
查看次数

标签 统计

pdfbox ×10

java ×8

pdf ×8

android ×2

image ×2

apache ×1

ghost4j ×1

graphics ×1

pdf-generation ×1

watermark ×1