相关疑难解决方法(0)

从研究论文的PDF中提取信息

我需要一种机制来从PDF文档中提取书目元数据,以保存人们手动输入或剪切和粘贴它.

至少,标题和摘要.作者名单及其隶属关系会很好.提取引用将是惊人的.

理想情况下,这将是一个开源解决方案.

问题是并非所有PDF都对文本进行编码,而且许多PDF文本都无法保留文本的逻辑顺序,因此只需执行pdf2text即可获得第1列第1行,第2列第1行,第1列第2行等.

我知道有很多图书馆.它正在识别我需要解决的文档的摘要,标题作者等.这种情况每次都不可能实现,但80%可以节省大量的人力.

pdf metadata extraction

37
推荐指数
4
解决办法
2万
查看次数

如何从脚本中提取PDF文档的标题以进行重命名?

我的计算机里有成千上万的PDF文件,这些文件的名称来自a0001.pdfa3621.pdf,每个文件的内部都有一个标题; 例如,"碳酸铝" a0001.pdf,"硝酸铝" a0002.pdf等,我想提取重命名我的文件.

我用这个程序重命名一个文件:

path=r"C:\Users\YANN\Desktop\..."

old='string 1'
new='string 2'

def rename(path,old,new):
    for f in os.listdir(path):
        os.rename(os.path.join(path, f), os.path.join(path, f.replace(old, new)))

rename(path,old,new)
Run Code Online (Sandbox Code Playgroud)

我想知道是否有解决方案提取嵌入在PDF文件中的标题来重命名文件?

python pdf file python-3.x

15
推荐指数
2
解决办法
7918
查看次数

标签 统计

pdf ×2

extraction ×1

file ×1

metadata ×1

python ×1

python-3.x ×1