如何从pdf论文中稳健地提取作者姓名？

Question

我想从 pdf 论文中提取作者姓名。有人知道一种可靠的方法吗？

例如，我想Archana Shukla从此pdf中提取名称https://arxiv.org/pdf/1111.1648

Answer 1

PDF 文档包含元数据。它包括有关文档及其内容的信息，例如作者\xe2\x80\x99的姓名、关键字、版权信息。请参阅 Adobe文档。

\n\n

\n\n

此信息可能未填写并且可能显示为空白。因此，一种可能性是解析文本的开头或结尾并提取您认为的作者姓名。当然，这并不可靠。但是，如果您有书目数据库，可以尝试匹配。

\n\n

如今，像 Microsoft Word 或 Libre Office Writer 这样的编辑器总是在元数据中填写作者姓名。当您导出文档时，它会被复制到 PDF 中。所以，这应该对你有用。尝试一下并告诉我们！

\n