我只是出于好奇而问。
今天我在被 RECAPTCHA 捕获时遇到了几个非常奇怪的词:
如果这些在任何语言中都是合理的词,那么谷歌搜索应该会产生一些在句子中使用这些词的合理页面。但是,上述单词的 Google 搜索结果数量为 3、0、27 和 0。对于其他合理的单词,这些命中显然是不可能的错别字。
那么 RECAPTCHA 从哪里得到这些词呢?(注意:“书籍”不是一个足够的答案:) 我正在寻找对看似不存在的词的高发生率的解释......)
嗯,答案是书。
它们可能是从其他语言扫描错误的,甚至可能是作者写错了。
我建议你阅读 Recaptcha 的关于页面。
为了存档人类知识并使世界更容易获取信息,多个项目目前正在将计算机时代之前编写的实体书籍数字化。书页被照相扫描,然后使用“光学字符识别”(OCR)转换成文本。转换为文本很有用,因为扫描书籍会产生图像,这些图像难以在小型设备上存储、下载成本高且无法搜索。问题是 OCR 并不完美。

reCAPTCHA 通过将计算机无法读取的单词以 CAPTCHA 的形式发送到 Web 以供人类破译,从而改进了图书数字化过程。更具体地说,将 OCR 无法正确读取的每个单词放置在图像上并用作 CAPTCHA。这是可能的,因为大多数 OCR 程序会在无法正确读取单词时提醒您。
正如我所说,OCR 中的错误 -
我相信 Indelms 应该是印度人 -来自美国法规第 40 部分第 2 部分
polietry - 很可能是从 Popliteal 扫描错误的 - 一个医学术语。
| 归档时间: |
|
| 查看次数: |
1217 次 |
| 最近记录: |