如何从PDF文件中的表格中提取数据？

Question

我有一个包含表格的PDF文件，格式如下：

pdf 图像

现在；我需要从每行的特定列中提取数据以插入数据库中。如何仅使用 javascript 或 python 提取我想要的列？

我已经尝试过手动方式，但这还不够。

我希望将原始数据放入变量（数组或列表）中。

============================================更新：

我决定使用 python，库的名称是 tabula；我使用 pip 安装它：

pip install tabula-py

您将 pdf 传递到图书馆并指定表格的页面。我的问题中的表的输出看起来很神奇，如下所示：

Answer 1

我使用pdfjs-dist提取 pdf 中的项目，并应用一些规则来识别表格元素。提取的项目不仅有文本信息，而且只有一个名为“transform”（变换矩阵）的属性，其中包含坐标信息，也可以用来标识表格元素。

第一件事是找到表的开头。在许多情况下，标题是相同的，因此您可以利用这些单词来找到开头。一行中的第一个表格元素可能共享相同的坐标，这也可以提供表格开始位置的线索。识别出表格的开头后，由于所有表格都是固定宽度的，因此可以将项目划分到某些列。请注意，单个单元格中可能有多于一行，因此您需要将它们组合起来。