当我尝试从我的PDF文件中提取文本时,它似乎在随机插入单词之间插入空格.
我在本页下载部分的以下示例文件中使用了pdfbox-app-1.6.0.jar(最新版本):http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练
我已经尝试了几个其他PDF文件,它似乎在几个页面上做同样的事情.
我做以下事情:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console~/Desktop/ped training pdf.pdf
在下载的文件中,您将看到以下空格错误地插入到控制台上的结果中:"•如果儿童能够安全地走到学校,这可以减少拥堵."
"•为以后的生活发展良好的习惯."
"www.sheff ield.gov.uk"
"提前考虑!,这是基于"
等等
正如你所看到的,上面的几个单词之间有空格,我无法理解.
我在ubuntu上运行Sun的JDK 1.6.
我已经在几个不同的PDF文件上尝试了这个,并试图在论坛上搜索解决方案,有类似的错误,但似乎都已解决.
任何帮助或如果其他人有相同的问题请评论.这对于正确索引内容以进行搜索造成了很大的问题.
我不想在嵌入模式下使用它,因为我也可以允许其他外部应用程序访问它.我想在Tomcat加载我的应用程序的同时执行服务器的启动(或者只是当tomcat运行时).这样我就不必要求客户端使用命令或脚本手动运行hsqldb,然后才能将我的战争放入tomcat并运行它(为了简单起见).
我可以通过从Java发送命令从main 调用Server,但这会给我一个无休止的线程,我不知道如何处理它.有没有更容易测试的方法来做到这一点?
我了解您可以使用Scala API执行此操作,如下所示:
https://groups.google.com/forum/?fromgroups=#!topic/play-framework/1vNGW-lPi9I
但似乎没有办法使用Java,因为FakeRequests的withFormUrlEncodedBody方法只支持字符串值?
这是API中缺少的功能还是有任何解决方法?(仅使用Java).
我已经陷入了这样一种情况:我需要发出JSONP Ajax GET请求(跨域),我需要发送一个长度为2000个字符的文档作为参数.
由于各种原因,我无法将其从JSONP更改为正常请求,并且我无法维护服务器端的状态以将请求拆分为多个.
鉴于这些限制,有没有办法在Javascript中以某种方式压缩长文本,所以我可以在2000 GET限制大小内适应它?我还需要知道我是否可以在服务器端轻松解压缩它?
因为它是一个GET请求,它只能作为文本发送,所以二进制压缩可能无法实现?
我有两个外部JavaScript lib文件,我必须在同一个JSP页面上加载.它们都有一个名为"autoSave()"的函数,两者都没有参数.我不能修改他们的签名,因为他们不是我的脚本文件.
如何显式调用脚本A或脚本B中的函数?如何确定优先顺序?
似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件?使用它时,我的内容之间似乎有随机空格。我通过直接通过 PDFBox(最新版本)运行 PDF 来隔离问题,该问题具有相同的问题。
一些 OCR 商业软件(如 Omnifind)可以很好地处理 PDF,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。
solr document-conversion full-text-indexing pdfbox apache-tika
我试图确保DataTable的状态保存在cookie中,以便在重新加载页面时它保持字段的排序顺序。这是我的代码,但是bStateSave似乎没有任何作用。
我遵循此处描述的方法:http : //datatables.net/examples/basic_init/state_save.html。
我究竟做错了什么?将不胜感激!
tbl = $(selector).dataTable({
"bStateSave": true,
"bProcessing": true,
"bServerSide": true,
"sAjaxSource": dataSource,
"iDeferLoading": totalRecCount,
"sDom": layout ? layout : defaultLayout,
"fnDrawCallback": drawCallback,
"aoColumns": aoColumns,
"oLanguage": {
"sSearch": ""
}
});
Run Code Online (Sandbox Code Playgroud) 我正在处理与外部IMAP服务器的错误连接.我需要我的应用程序定期从此邮件服务器下载邮件.在很多情况下,我的代码已经使用javamail下载了消息并执行了message.getContent,然后处理各个正文部分(附件).在执行此操作的过程中,连接可能会丢失.
因此,我需要确保消息在执行message.getContent时没有自动标记为SEEN,这就是Javamail的行为方式,如本回复中所述:https://stackoverflow.com/a/7679091/303106
有没有办法确保未下载的邮件未标记为SEEN?
apache-tika ×2
java ×2
javascript ×2
jquery ×2
pdfbox ×2
solr ×2
ajax ×1
compression ×1
hsqldb ×1
http ×1
imap ×1
jakarta-mail ×1
jsonp ×1
lucene ×1