use*_*739 0 python pdf nlp named-entity-recognition information-extraction
我想从 pdf 论文中提取作者姓名。有人知道一种可靠的方法吗?
例如,我想Archana Shukla从此pdf中提取名称https://arxiv.org/pdf/1111.1648
PDF 文档包含元数据。它包括有关文档及其内容的信息,例如作者\xe2\x80\x99的姓名、关键字、版权信息。请参阅 Adobe文档。
\n\n您可以使用PyPDF2提取 PDF 元数据。请参阅有关DocumentInformation 类的文档。
\n\n此信息可能未填写并且可能显示为空白。因此,一种可能性是解析文本的开头或结尾并提取您认为的作者姓名。当然,这并不可靠。但是,如果您有书目数据库,可以尝试匹配。
\n\n如今,像 Microsoft Word 或 Libre Office Writer 这样的编辑器总是在元数据中填写作者姓名。当您导出文档时,它会被复制到 PDF 中。所以,这应该对你有用。尝试一下并告诉我们!
\n| 归档时间: |
|
| 查看次数: |
4812 次 |
| 最近记录: |