小编use*_*902的帖子

图像处理,以提高tesseract OCR的准确性

我一直在使用tesseract将文档转换为文本.文档的质量范围非常广泛,我正在寻找有关哪种图像处理可能会改善结果的提示.我注意到高度像素化的文本 - 例如由传真机生成的文本 - 对于tesseract来说特别难以处理 - 可能是角色的所有锯齿状边缘都会混淆形状识别算法.

什么样的图像处理技术可以提高准确度?我一直在使用高斯模糊来平滑像素化图像并看到一些小的改进,但我希望有更具体的技术可以产生更好的结果.假设一个过滤器被调整为黑白图像,这将平滑不规则的边缘,然后是一个过滤器,它会增加对比度,使角色更加清晰.

对于图像处理新手的任何一般提示?

ocr tesseract image-processing

127
推荐指数
9
解决办法
13万
查看次数

XPath 1.0查找元素的值是否在值列表中

有没有办法构造一个XPath来评估元素的值是否在预定义的值列表中?类似于此的东西:

/Location/Addr[State='TX or AL or MA']
Run Code Online (Sandbox Code Playgroud)

哪个匹配德克萨斯州,阿拉巴马州或马萨诸塞州的州元素?我知道我可以解压缩表达式:

/Location/Addr[State='TX] or  /Location/Addr[State='AL'], etc...
Run Code Online (Sandbox Code Playgroud)

但这有点麻烦,因为xpath很长,值列表也是如此.我的google-fu在这个问题上没有太多关注......

xpath expression list

30
推荐指数
2
解决办法
3万
查看次数

调整apache commons日志记录的日志级别?

我有一个简单的控制台应用程序,它使用apache的PDFBox库,后者又使用commons日志记录.我在我的控制台中收到了很多垃圾邮件,我想抑制它:

2011年2月15日下午3:56:40 org.apache.pdfbox.util.PDFStreamEngine processOperator信息:不支持/禁用操作:EI

在我的代码中,我试图重置日志级别无济于事:

Logger.getLogger("org.apache.pdfbox.util.PDFStreamEngine").setLevel(Level.OFF);
Logger.getLogger("org.apache.pdfbox.util").setLevel(Level.OFF);
Logger.getLogger("org.apache.pdfbox").setLevel(Level.OFF);
Run Code Online (Sandbox Code Playgroud)

尽管有这些设置,但消息仍然显示在控制台上.从Commons日志记录中检索日志对象也没有帮助,因为它似乎没有办法设置级别.

有没有办法以编程方式抑制这些消息?或者我是否需要添加配置文件?

java java.util.logging apache-commons-logging

20
推荐指数
1
解决办法
2万
查看次数

有没有办法在计算机之间自动同步html5 localstorage

我有一个简单的离线html5/javascript单html文件Web应用程序,我存储在我的Dropbox中.这是我编写的一种时间跟踪工具,它将应用程序数据保存到本地存储.由于它是我自己使用的,我喜欢离线应用程序的便利性.

但是我有几台计算机,我一直试图想出任何一种hacky方式来同步我的各种机器之间的这个应用程序的数据(目前正在使用本地存储).

Chrome似乎允许数据同步,但仅适用于chrome扩展.我还以为我可以让网页自动保存/加载来自Dropbox文件夹中文件的数据,但似乎没有办法在没有用户提示的情况下自动与特定文件同步.

我认为"明显"的解决方案是将页面放在服务器上并将数据存储在数据库中.但是假设我不想要一个需要我在服务器上维护应用程序的解决方案 - 是否有另一种方法,无论如何hacky,凑齐同步?

我甚至找了一段时间看看是否有供应商提供网络数据库服务 - 我可以说,按需要发布/获取一小撮json,然后以某种方式让我的离线应用程序与此服务同步,但同样-origin政策似乎使该计划无效(此外我找不到这样的服务).

使用chrome,谷歌驱动器,Dropbox或其他一些我不知道的工具,是否有一个棘手/偷偷摸摸的解决方案?或者我是否设置了自己的服务器?

javascript sync offlineapps

13
推荐指数
2
解决办法
5926
查看次数

XPath 比较两个元素的两个不同属性

假设我有这个 XML:

<x>
<e s="1" t="A"/>
<e s="2" t="A"/>
<e s="1" t="B"/>
</x>
Run Code Online (Sandbox Code Playgroud)

有没有办法编写一个xpath来查找是否有两个名为“e”的不同节点对@s具有相同的值但@t的值不同。第一部分很简单:

//e[@s = //e/@s] 
Run Code Online (Sandbox Code Playgroud)

和第二部分一样:

//e[@t != //e[@t]]
Run Code Online (Sandbox Code Playgroud)

但是我没有看到任何方法来构建一个 xpath 来比较两个单独元素“e”的两个不同属性。xpath 语法中有没有办法,还是没有希望?

xml xpath

5
推荐指数
1
解决办法
4183
查看次数

特定应用程序使用JULI登录tomcat 7?

我在tomcat 7中使用java系统日志记录,但没有日志记录语句写入日志.我已将此文件添加到我的WEB-INF/classes中.创建了日志文件"new-xyz-test"(所以我至少有一些配置权限),但它是空的 - 没有日志语句打印到它.

handlers=java.util.logging.ConsoleHandler, org.apache.juli.FileHandler

org.apache.juli.FileHandler.level=ALL
org.apache.juli.FileHandler.directory=${catalina.base}/logs
org.apache.juli.FileHandler.prefix=new-xyz-test-

java.util.logging.ConsoleHandler.level=ALL
java.util.logging.ConsoleHandler.formatter = java.util.logging.SimpleFormatter

com.xyz.level=ALL
com.xyz.handlers=org.apache.juli.FileHandler
Run Code Online (Sandbox Code Playgroud)

java logging tomcat

3
推荐指数
1
解决办法
1万
查看次数