小编Nav*_*eed的帖子

计算 pandas 数据框中 inf 的出现次数

我们可以计算nanwith的出现次数df.isna().count() 是否有类似的函数 count inf

pandas

7
推荐指数
2
解决办法
7763
查看次数

带魔杖的谷歌云功能停止工作

我已经设置了 3 个 Google Cloud Storge 存储桶和 3 个函数(每个存储桶一个),它们将在 PDF 文件上传到存储桶时触发。函数将 PDF 转换为 png 图像并进行进一步处理。

当我尝试创建第四个存储桶和类似的功能时,奇怪的是它不起作用。即使我复制了现有的 3 个函数之一,它仍然无法正常工作,并且出现此错误:

Traceback (most recent call last): File "/env/local/lib/python3.7/site-packages/google/cloud/functions_v1beta2/worker.py", line 333, in run_background_function _function_handler.invoke_user_function(event_object) File "/env/local/lib/python3.7/site-packages/google/cloud/functions_v1beta2/worker.py", line 199, in invoke_user_function return call_user_function(request_or_event) File "/env/local/lib/python3.7/site-packages/google/cloud/functions_v1beta2/worker.py", line 196, in call_user_function event_context.Context(**request_or_event.context)) File "/user_code/main.py", line 27, in pdf_to_img with Image(filename=tmp_pdf, resolution=300) as image: File "/env/local/lib/python3.7/site-packages/wand/image.py", line 2874, in __init__ self.read(filename=filename, resolution=resolution) File "/env/local/lib/python3.7/site-packages/wand/image.py", line 2952, in read self.raise_exception() File "/env/local/lib/python3.7/site-packages/wand/resource.py", line 222, in raise_exception raise e wand.exceptions.PolicyError: …

python-3.x google-cloud-platform google-cloud-functions

5
推荐指数
1
解决办法
1157
查看次数

从图像中删除特定尺寸的线条

我对下图使用了以下 imagemagick 命令:

convert img.png -define morphology:compose=darken -morphology Thinning Rectangle:17x1+0+0\< tmp.png
Run Code Online (Sandbox Code Playgroud)

这会删除图像中的所有线条,但我只想删除每个块左上角数字右侧和底部的小水平和垂直线。我想保留主列和行线。谁能告诉我该怎么做? 在此输入图像描述

这就是我得到的结果(请注意,将图像内容划分为列和行的长线也消失了。我希望这些线保留):在此输入图像描述

imagemagick

3
推荐指数
1
解决办法
2703
查看次数

Tesseract OCR大量文件

.TIF我的硬盘上有大约135000个文件(1.2KB到1.4KB).我需要从这些文件中提取文本.如果我tesseract作为一个cron工作,我最多每小时500到600.任何人都可以建议我的策略,这样我每分钟至少可以得到500个?

更新:

下面是我执行@Mark提供的建议后的代码,我似乎每分钟超过20个文件.

#!/bin/bash

cd /mnt/ramdisk/input

function tess() 
{
    if [ -f /mnt/ramdisk/output/$2.txt ]
        then
        echo skipping $2
        return
    fi
    tesseract --tessdata-dir /mnt/ramdisk/tessdata -l eng+kan $1 /mnt/ramdisk/output/$2 > /dev/null 2>&1
}

export -f tess

find . -name \*.tif -print0 | parallel -0 -j100 --progress tess {/} {/.}
Run Code Online (Sandbox Code Playgroud)

parallel-processing tesseract

1
推荐指数
1
解决办法
1572
查看次数