我已经对学术论文进行了几年的评分,我已经开始看到拼写和语法错误的多种模式.此外,我注意到经验不足的学者倾向于使用某些能够立即为更有经验的研究人员带来"气味"的结构.
我想在PDF文件中自动识别和注释这些内容.是否有人知道我可以用来自动注释和评论PDF文件的脚本?也许这很简单,但我觉得我是第一个提出这个问题的人之一.
编程没问题.
我用R pdf()函数保存了一个用R生成的图(见下文).是否可以在此图中添加可点击的超链接?pdf()欢迎替代方案.
pdf(file="plot.pdf",width=20,height=50)
q <- ggplot(df, aes(x=reorder(desc,Value, FUN=median), y=Value))
q + geom_boxplot(aes(fill = factor(role)))+ coord_flip()
dev.off()
Run Code Online (Sandbox Code Playgroud)
其中,df$desc如下所示:
[1] "http://www.jcvi.org/cgi-bin/tigrfams/HmmReportPage.cgi?acc=TIGR02914 # EpsI_fam: EpsI family protein # Role: 141"
[2] "http://www.jcvi.org/cgi-bin/tigrfams/HmmReportPage.cgi?acc=TIGR03067 # Planc_TIGR03067: Planctomycetes uncharacterized domain TIGR03067 # Role: 157"
[3] "http://www.jcvi.org/cgi-bin/tigrfams/HmmReportPage.cgi?acc=TIGR03021 # pilP_fam: type IV pilus biogenesis protein PilP # Role: 91"
Run Code Online (Sandbox Code Playgroud)
在pdf中,链接不可点击.
我有几个用 Microsoft Word 生成的 PDF。我想要:
如果我在 HTML 中执行此操作,它将如下所示:
<!-- before: -->
This is the text to match.
<!-- after: -->
This is the text to <a href="http://www.match.com/" target="_blank">match</a>.
Run Code Online (Sandbox Code Playgroud)
如何对 PDF 执行此操作?
我更喜欢 Python,但我对其他选择持开放态度。
编辑:我无权访问原始 Word 文档。我需要自己操作 PDF。我正在寻找一种使用 Python PDF 库(或其他语言中的类似库)的技术。
编辑 2:我知道 PDF 的源代码不包含文字字符串。我想知道是否有一种方法可以执行以下操作:(1)提取文本,(2)查找匹配项,以及(3)对于每个匹配项,在原始 PDF 中的文本位置周围绘制一个可点击的框。我最接近的是 PyPDF2 的addLink(),但它在 PDF中添加了内部链接,而不是指向外部 URL 的链接。