我需要一种机制来从PDF文档中提取书目元数据,以保存人们手动输入或剪切和粘贴它.
至少,标题和摘要.作者名单及其隶属关系会很好.提取引用将是惊人的.
理想情况下,这将是一个开源解决方案.
问题是并非所有PDF都对文本进行编码,而且许多PDF文本都无法保留文本的逻辑顺序,因此只需执行pdf2text即可获得第1列第1行,第2列第1行,第1列第2行等.
我知道有很多图书馆.它正在识别我需要解决的文档的摘要,标题作者等.这种情况每次都不可能实现,但80%可以节省大量的人力.
Google表格可以让您将数据以.XLS文件或.CSV等格式发布到网络上。我有一个系统可以在其中编辑电子表格,完成后,我会运行一个脚本来下载.csv文件并对其进行处理在我们的网站上使用。
问题在于,生成的.csv文件有时会过时几分钟,这意味着每次完成编辑后,我需要在运行脚本之前点击“发布到网络”->“立即重新发布”按钮。这对我来说已经很繁琐,不能让我的其他用户记住。
我需要使命令行脚本自动告诉Google重新发布,或者寻找另一种方法来从电子表格中获取当前数据。