小编zen*_*der的帖子

OCR应用前的图像清洁

我在过去的几个小时里一直在试验PyTesser,这是一个非常好的工具.我注意到有关PyTesser准确性的一些事情:

  1. 带有图标,图像和文本的文件 - 准确率为5-10%
  2. 仅包含文本的文件(图像和图标已擦除) - 准确率为50-60%
  3. 带拉伸的文件(这是最好的部分) - 在x或y轴上面的2)拉伸文件将精度提高了10-20%

显然Pytesser并不关心字体尺寸或图像拉伸.虽然有很多关于图像处理和OCR的理论需要阅读,但是在应用PyTesser或其他库之前,是否有任何标准的图像清理程序(除了擦除图标和图像),而不管语言是什么?

...........

哇,这篇文章现在已经很老了.在过去的几天里,我再次开始研究OCR.这次我扔掉了PyTesser并使用了Tesseract引擎和ImageMagik.直截了当地说,这就是我发现的:

1) You can increase the resolution with ImageMagic(There are a bunch of simple shell commands you can use)
2) After increasing the resolution, the accuracy went up by 80-90%.
Run Code Online (Sandbox Code Playgroud)

因此,Tesseract Engine毫无疑问是市场上最好的开源OCR引擎.此处不需要事先清洁图像.需要注意的是,它不适用于包含大量嵌入图像的文件,而且我没有找到一种方法来训练Tesseract忽略它们.此外,图像中的文本布局和格式也有很大的不同.它只适用于带有文本的图像.希望这有帮助.

python ocr image-processing

14
推荐指数
3
解决办法
2万
查看次数

MySQL导入 - 如果存在行,如何忽略Drop表?

我使用mysqldump将2个相同的数据库(表的名称和结构相同)导出为两个.sql文件.我想将它们合并到一个文件中.但是,两个数据库在每个表之前都有一个"Drop table"行.这意味着如果我导入db1然后导入db2,则在导入db2表之前会删除db1表.

文件很大,我无法在编辑器中打开它们.此外,每个数据库中有50个表.

如何在mysql导入期间忽略Drop table命令?

mysql database

10
推荐指数
2
解决办法
2万
查看次数

如何使用Django REST API验证android用户POST请求?

截至目前,我有一个Django REST API,一切都是网络应用程序的hunky dory,其中我在后端实现了User Auth."login_required"条件适用于基于cookie的Web应用程序.

我现在有一个需要访问相同API的Android应用.我可以登录用户.我需要知道的是,当他们对我的观点发出GET/POST请求时,如何对每个用户进行身份验证?

我的研究显示了几个解决方案:1)Cookie支持的会话2)每个GET/POST请求发送用户名和密码(可能不安全)

有任何想法吗?

python java authentication django android

4
推荐指数
1
解决办法
8984
查看次数

lxml XPath - 如何从节点获取连接文本

我有一个像

<a class="someclass">
Wie
<em>Messi</em>
einen kleinen Jungen stehen lässt
</a>
Run Code Online (Sandbox Code Playgroud)

我如何构造一个 XPath 来["Wie Messi einen kleinen Jungen stehen lässt"]代替["Wie","Messi","einen kleinen Jungen stehen lässt"]

我在 XPath 中使用 python lxml.html 函数。

尝试组合

  1. //a/node()/text()
  2. //a/descendant::*/text()
  3. //a/text()

但它没有帮助。任何解决方案?

我正在考虑另一种方法,我以某种方式获取<a>元素的“内部 html” (在上述情况下为"Wie <em>Messi</em> einen kleinen Jungen stehen lässt")并<em>从 html 中删除标签。

仍在试图弄清楚如何从 XPath 获取innerhtml(Javascript,有人吗?)。

python xml xslt xpath lxml

3
推荐指数
1
解决办法
2911
查看次数

如何删除PIL图像?

我正在尝试使用Python PIL替换Image文件.

im = Image.open(logo_dir+cat_string_im)
Run Code Online (Sandbox Code Playgroud)

我打电话删除原始文件的功能是什么?

im.delete()或im.replace()不起作用.

python django python-imaging-library

2
推荐指数
2
解决办法
5884
查看次数

如何使用 Django oAuth 工具包从 Django Rest Framework 获取请求应用程序详细信息

我正在使用 Django Rest Framework 和 Django oAuth 工具包。

目前的流程是:

  1. 第三方应用程序向授权服务器注册
  2. 用户使用我的应用程序oAuth2登录第三方应用程序
  3. 第三方应用程序使用标头“授权”中的用户身份验证令牌向我的服务器发出一些请求
  4. DOT将token转换为用户对象并传递给请求对象

记录应用程序级请求的视图需要代表用户发出请求的应用程序的应用程序 ID。DRF 和 DOT 文档没有显示如何执行此操作。有谁知道如何实现这个流程?

python django oauth oauth-2.0 django-rest-framework

1
推荐指数
1
解决办法
1335
查看次数