用php阅读pdf文件

Rya*_*rty 49 php pdf

我有一个大型PDF文件,它是建筑物的楼层地图.它有所有办公家具的层,包括座位位置的文本框.

我的目标是用PHP读取这个文件,在文档中搜索文本图层,在文件中获取它们的内容和坐标.这样我可以绘制座位位置​​ - > x/y坐标.

有没有办法通过PHP做到这一点?(甚至Ruby或Python,如果这是必要的)

Jay*_*Jay 31

查看FPDF(使用FPDI):

http://www.fpdf.org/

http://www.setasign.de/products/pdf-php-solutions/fpdi/

这些将允许您打开PDF并在PHP中添加内容.我猜你也可以使用他们的功能在现有内容中搜索你需要的值.

另一个可能的库是TCPDF:http://www.tecnick.com/public/code/cp_dpage.php? aocp_dp = tcpdf

更新以添加更现代的库:PDF Parser

  • 至于将pdf解析为php,fpdf不足,而pdfparser http://www.pdfparser.org/documentation具有干净直观的编程接口 (3认同)
  • 嗨@Nate!我将pdf解析器库添加到答案中.感谢6岁回答的downvote! (3认同)
  • 在寻找我自己的答案时,我遇到了这些信息,当时我没有在寻找信息的年龄。这个网站是一个很好的资源,但前提是信息是真实的。 (2认同)

kas*_*ans 24

有一个php库(pdfparser)可以完全满足您的需求.

项目网站

http://www.pdfparser.org/

github上

https://github.com/smalot/pdfparser

演示页/ api

http://www.pdfparser.org/demo

在项目中包含pdfparser后,您可以mypdf.pdf像这样获取所有文本:

<?php
$parser = new \installpath\PdfParser\Parser();
$pdf    = $parser->parseFile('mypdf.pdf');  
$text = $pdf->getText();
echo $text;//all text from mypdf.pdf

?>
Run Code Online (Sandbox Code Playgroud)

模拟您可以从pdf获取元数据以及获取pdf对象(例如图像).


Rad*_*ado 5

不完全是 php,但您可以从 php 执行一个程序,将 pdf 转换为临时 html 文件,然后使用 php 解析结果文件。我已经为我的项目做了类似的事情,这是我使用的程序:

Pdf转Html

生成的 HTML 使用绝对位置坐标将文本元素包装在 <div> 标记中。看起来这正是您正在尝试做的事情。

  • 嘿,您可以发布示例代码如何实现您的结果吗?我找不到合适的文档。这会很棒。 (3认同)