recaptcha 如何知道您没有输入图片的虚假翻译

Question

据我所知，Captchas 是被过滤器、噪声和其他杂项算法的应用扭曲的文本。因此，要确定一个人的阅读能力是否与一个人的阅读能力相同，您可以将他们回答的内容与已知的答案进行比较。

现在，阅读 ReCaptcha，它说显示的单词是 OCR 无法翻译的单词。此外，recaptcha 被用于翻译这些图像。它如何判断您的阅读确实是正确的还是只是在胡编乱造？

如果它知道它说了什么，它就不会在 recaptcha 中用作翻译材料。如果它不知道文本说什么，那么它如何验证您的答案？

我猜这可能是一些基于概率的分析，样本量很大，然后才将任何内容标记为已翻译。

有谁知道这个问题的答案在哪里？

Answer 1

书页基本上是通过照片扫描，然后使用“光学字符识别”（OCR）转换成文本，并以图像的形式发送到网络，其中一个单词是 reCAPTCHA 背后的计算机程序已知的，一个单词不是还知道。

然后用户输入两个单词，如果他们解决了已知答案的单词，则系统假定他们的答案对于新的答案是正确的。然后系统将新图像提供给其他一些人，以更高的置信度确定原始答案是否正确。因此，该系统是一种随着时间的推移而变得更好的自我改进服务。

Answer 2

这就是 reCaptcha 让您输入两个单词的原因。其中一个词是已知的，一个词是未知的。您是否通过验证码仅取决于您如何回答已知单词。您对另一个（未知）单词的回答将与对同一单词的其他回答一起使用，以将其转换为已知单词。