有很多工具可以从PDF文件中提取文本[1-4].然而,大多数科学论文的问题是直接获取PDF的困难主要是由于需要付费.除了bibtex信息之外,还有一些工具可以轻松访问论文的信息,如元数据或bibtex [5-6].我想要的是向前迈出一步,超越bibtex /元数据:
假设没有直接访问出版物的PDF文件,有没有办法至少获得科学论文的摘要给出论文的DOI或标题?通过我的搜索,我发现有一些尝试[7]用于某些类似的目的.有谁知道一个网站/工具,可以帮助我获取/提取科学论文的摘要或全文?如果没有这样的工具,你能否就解决这个问题后我应该怎么做?
谢谢
[1] http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers
[2] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf
[3] http://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf?lq=1
[4] http://stackoverflow.com/questions/14291856/extracting-article-contents-from-pdf-magazines?rq=1
[5] https://stackoverflow.com/questions/10507049/get-metadata-from-doi
[6] https://github.com/venthur/gscholar
[7] https://stackoverflow.com/questions/15768499/extract-text-from-google-scholar
Run Code Online (Sandbox Code Playgroud)