由于已解决的错误,Google Document AI 训练失败

Ave*_*nus 5 google-cloud-platform cloud-document-ai

我正在使用 Google 的Document AI训练模型。训练失败并出现以下错误(为简单起见,我仅包含 JSON 文件的一部分,但该错误对于数据集中的所有文档都是相同的):

"trainingDatasetValidation": {
      "documentErrors": [
        {
          "code": 3,
          "message": "Invalid document.",
          "details": [
            {
              "@type": "type.googleapis.com/google.rpc.ErrorInfo",
              "reason": "INVALID_DOCUMENT",
              "domain": "documentai.googleapis.com",
              "metadata": {
                "num_fields": "0",
                "num_fields_needed": "1",
                "document": "5e88c5e4cc05ddb8.json",
                "annotation_name": "INCOME_ADJUSTMENTS",
                "field_name": "entities.text_anchor.text_segments"
              }
            }
          ]
        }
Run Code Online (Sandbox Code Playgroud)

我从这个错误中了解到的是,模型期望该字段INCOME_ADJUSTMENTS在文档中(至少)出现一次,但它发现它的实例为零。

这是可以理解的,除非我已经INCOME_ADJUSTMENTS在模式中将该字段定义为“可选一次”,即该字段可以出现零次或一次。

模式选项列表

我错过了什么吗?尽管该错误已在架构中得到解决,但为什么该错误仍然存​​在?

ps 我还尝试过“可选多个”(以及“必需一次”和“必需多个”),但错误仍然存​​在。

编辑:根据要求,以下是其中一个 JSON 文件的样子。请注意,此处没有 PII,因为详细信息(姓名、SSN 等)是合成数据。

小智 -1

我有同样的问题。所以我删除了所有数据集并再次导入并重新标记。然后训练效果很好。

  • 从头开始重新导入和重新标记不可能被视为解决方案。如果我已经手动标记了数百/数千个文档怎么办?这就是工作的日子。 (2认同)