小编Chr*_*dge的帖子

我需要一种机制来从PDF文档中提取书目元数据,以保存人们手动输入或剪切和粘贴它.

至少,标题和摘要.作者名单及其隶属关系会很好.提取引用将是惊人的.

理想情况下,这将是一个开源解决方案.

问题是并非所有PDF都对文本进行编码,而且许多PDF文本都无法保留文本的逻辑顺序,因此只需执行pdf2text即可获得第1列第1行,第2列第1行,第1列第2行等.

我知道有很多图书馆.它正在识别我需要解决的文档的摘要,标题作者等.这种情况每次都不可能实现,但80%可以节省大量的人力.

37
推荐指数

4
解决办法

2万
查看次数

Google表格可以让您将数据以.XLS文件或.CSV等格式发布到网络上。我有一个系统可以在其中编辑电子表格，完成后，我会运行一个脚本来下载.csv文件并对其进行处理在我们的网站上使用。

问题在于，生成的.csv文件有时会过时几分钟，这意味着每次完成编辑后，我需要在运行脚本之前点击“发布到网络”->“立即重新发布”按钮。这对我来说已经很繁琐，不能让我的其他用户记住。

我需要使命令行脚本自动告诉Google重新发布，或者寻找另一种方法来从电子表格中获取当前数据。

6
推荐指数

2
解决办法

4221
查看次数

pdf ×1

小编Chr_dge的帖子