我们可以计算nan
with的出现次数df.isna().count()
是否有类似的函数 count inf
?
我已经设置了 3 个 Google Cloud Storge 存储桶和 3 个函数(每个存储桶一个),它们将在 PDF 文件上传到存储桶时触发。函数将 PDF 转换为 png 图像并进行进一步处理。
当我尝试创建第四个存储桶和类似的功能时,奇怪的是它不起作用。即使我复制了现有的 3 个函数之一,它仍然无法正常工作,并且出现此错误:
Traceback (most recent call last): File "/env/local/lib/python3.7/site-packages/google/cloud/functions_v1beta2/worker.py", line 333, in run_background_function _function_handler.invoke_user_function(event_object) File "/env/local/lib/python3.7/site-packages/google/cloud/functions_v1beta2/worker.py", line 199, in invoke_user_function return call_user_function(request_or_event) File "/env/local/lib/python3.7/site-packages/google/cloud/functions_v1beta2/worker.py", line 196, in call_user_function event_context.Context(**request_or_event.context)) File "/user_code/main.py", line 27, in pdf_to_img with Image(filename=tmp_pdf, resolution=300) as image: File "/env/local/lib/python3.7/site-packages/wand/image.py", line 2874, in __init__ self.read(filename=filename, resolution=resolution) File "/env/local/lib/python3.7/site-packages/wand/image.py", line 2952, in read self.raise_exception() File "/env/local/lib/python3.7/site-packages/wand/resource.py", line 222, in raise_exception raise e wand.exceptions.PolicyError: …
我对下图使用了以下 imagemagick 命令:
convert img.png -define morphology:compose=darken -morphology Thinning Rectangle:17x1+0+0\< tmp.png
Run Code Online (Sandbox Code Playgroud)
这会删除图像中的所有线条,但我只想删除每个块左上角数字右侧和底部的小水平和垂直线。我想保留主列和行线。谁能告诉我该怎么做?
.TIF
我的硬盘上有大约135000个文件(1.2KB到1.4KB).我需要从这些文件中提取文本.如果我tesseract
作为一个cron工作,我最多每小时500到600.任何人都可以建议我的策略,这样我每分钟至少可以得到500个?
更新:
下面是我执行@Mark提供的建议后的代码,我似乎每分钟超过20个文件.
#!/bin/bash
cd /mnt/ramdisk/input
function tess()
{
if [ -f /mnt/ramdisk/output/$2.txt ]
then
echo skipping $2
return
fi
tesseract --tessdata-dir /mnt/ramdisk/tessdata -l eng+kan $1 /mnt/ramdisk/output/$2 > /dev/null 2>&1
}
export -f tess
find . -name \*.tif -print0 | parallel -0 -j100 --progress tess {/} {/.}
Run Code Online (Sandbox Code Playgroud)