小编Rav*_*dev的帖子

PDFBox在单词中添加空格

当我尝试从我的PDF文件中提取文本时,它似乎在随机插入单词之间插入空格.

我在本页下载部分的以下示例文件中使用了pdfbox-app-1.6.0.jar(最新版本):http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练

我已经尝试了几个其他PDF文件,它似乎在几个页面上做同样的事情.

我做以下事情:

java -jar pdfbox-app-1.6.0.jar ExtractText -force -console~/Desktop/ped training pdf.pdf

在下载的文件中,您将看到以下空格错误地插入到控制台上的结果中:"•如果儿童能够安全地走到学校,这可以减少拥堵."

"•为以后的生活发展良好的习惯."

"www.sheff ield.gov.uk"

"提前考虑!,这是基于"

等等

正如你所看到的,上面的几个单词之间有空格,我无法理解.

我在ubuntu上运行Sun的JDK 1.6.

我已经在几个不同的PDF文件上尝试了这个,并试图在论坛上搜索解决方案,有类似的错误,但似乎都已解决.

任何帮助或如果其他人有相同的问题请评论.这对于正确索引内容以进行搜索造成了很大的问题.

lucene solr pdfbox apache-tika

12
推荐指数
2
解决办法
3422
查看次数

如何从我的Web应用程序中启动并继续在服务器模式下运行hsqldb?

我不想在嵌入模式下使用它,因为我也可以允许其他外部应用程序访问它.我想在Tomcat加载我的应用程序的同时执行服务器的启动(或者只是当tomcat运行时).这样我就不必要求客户端使用命令或脚本手动运行hsqldb,然后才能将我的战争放入tomcat并运行它(为了简单起见).

我可以通过从Java发送命令从main 调用Server,但这会给我一个无休止的线程,我不知道如何处理它.有没有更容易测试的方法来做到这一点?

java hsqldb

10
推荐指数
1
解决办法
2万
查看次数

如何使用Java在Play Framework 2.0中测试文件上载的多部分表单数据请求?

我了解您可以使用Scala API执行此操作,如下所示:

https://groups.google.com/forum/?fromgroups=#!topic/play-framework/1vNGW-lPi9I

但似乎没有办法使用Java,因为FakeRequests的withFormUrlEncodedBody方法只支持字符串值?

这是API中缺少的功能还是有任何解决方法?(仅使用Java).

java functional-testing playframework playframework-2.0

7
推荐指数
1
解决办法
2487
查看次数

如何在Javascript中压缩GET参数以避免达到浏览器大小限制?

我已经陷入了这样一种情况:我需要发出JSONP Ajax GET请求(跨域),我需要发送一个长度为2000个字符的文档作为参数.

由于各种原因,我无法将其从JSONP更改为正常请求,并且我无法维护服务器端的状态以将请求拆分为多个.

鉴于这些限制,有没有办法在Javascript中以某种方式压缩长文本,所以我可以在2000 GET限制大小内适应它?我还需要知道我是否可以在服务器端轻松解压缩它?

因为它是一个GET请求,它只能作为文本发送,所以二进制压缩可能无法实现?

compression ajax jquery jsonp http

6
推荐指数
1
解决办法
930
查看次数

如果函数来自外部JavaScript库,如何处理JavaScript中冲突的函数名?

我有两个外部JavaScript lib文件,我必须在同一个JSP页面上加载.它们都有一个名为"autoSave()"的函数,两者都没有参数.我不能修改他们的签名,因为他们不是我的脚本文件.

如何显式调用脚本A或脚本B中的函数?如何确定优先顺序?

javascript

5
推荐指数
1
解决办法
5577
查看次数

替代 Tika/PDFBox 用于在 Solr 中解析 PDF(1.4 之后的任何版本)

似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件?使用它时,我的内容之间似乎有随机空格。我通过直接通过 PDFBox(最新版本)运行 PDF 来隔离问题,该问题具有相同的问题。

一些 OCR 商业软件(如 Omnifind)可以很好地处理 PDF,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。

solr document-conversion full-text-indexing pdfbox apache-tika

5
推荐指数
1
解决办法
5265
查看次数

如何使用Play Framework 2.0中的相对路径访问资源文件?

如何访问相对于Play应用程序路径的资源文件(即使打包到分发zip中)?

这与问题相同,但在Play 2中,其api中没有VirtualFile类.

谢谢.

playframework-2.0

3
推荐指数
1
解决办法
4986
查看次数

将状态和列排序保存在DataTable中。(使用Cookie)

我试图确保DataTable的状态保存在cookie中,以便在重新加载页面时它保持字段的排序顺序。这是我的代码,但是bStateSave似乎没有任何作用。

我遵循此处描述的方法:http : //datatables.net/examples/basic_init/state_save.html

我究竟做错了什么?将不胜感激!

tbl = $(selector).dataTable({
           "bStateSave": true,
           "bProcessing": true,
           "bServerSide": true,
           "sAjaxSource": dataSource,
           "iDeferLoading": totalRecCount,

           "sDom": layout ? layout : defaultLayout,
                   "fnDrawCallback": drawCallback,
                   "aoColumns": aoColumns,
                   "oLanguage": {
                   "sSearch": ""
           }
       });
Run Code Online (Sandbox Code Playgroud)

javascript jquery jquery-datatables

1
推荐指数
1
解决办法
6612
查看次数

如何确保IMAP电子邮件上的SEEN标志在执行getContent时不会自动标记为SEEN

我正在处理与外部IMAP服务器的错误连接.我需要我的应用程序定期从此邮件服务器下载邮件.在很多情况下,我的代码已经使用javamail下载了消息并执行了message.getContent,然后处理各个正文部分(附件).在执行此操作的过程中,连接可能会丢失.

因此,我需要确保消息在执行message.getContent时没有自动标记为SEEN,这就是Javamail的行为方式,如本回复中所述:https://stackoverflow.com/a/7679091/303106

有没有办法确保未下载的邮件未标记为SEEN?

imap jakarta-mail

1
推荐指数
1
解决办法
1592
查看次数