我需要从 PDF 中获取数千个文本片段到电子表格。它们很短,很少超过 2-3 行,但是每次换行都会创建一个新单元格,我必须手动修复它,这会花费很多时间。
因为我有这么多,使用“粘贴到 Word 中并执行查找和替换”的解决方法对我来说太浪费时间了。有没有办法让换行符在复制时消失?也许有一个查看器为此提供了特殊的复制模式,或者有一个插件?
这些文件是科学文章。文字排列相当线性。您可以假设我正在复制的文本不在表格或浮点数内,也没有旋转或任何东西。(如果发生这样的事情,我想我会手动处理)。文本通常设置在两列中,但我可以毫不费力地从其列中标记我需要的文本。我不需要保留任何特殊格式。例如,我愿意尝试一种删除所有不可打印字符的解决方案。文本是英文的,如果解决方案仅适用于 ASCII/剥离复制文本的所有非字母数字 ASCII,则可以。
我非常喜欢可以在 Linux 上运行的解决方案,可能是某种 Okular 插件。但是,如果碰巧有仅适用于 Windows 的解决方案,我也想听听。我在 Windows 机器上有一个最近的 Acrobat Pro 的许可证。
我有一个 pdf 文件,其中包含一些非拉丁欧洲字符。如果我使用突出显示工具复制一些文本,并将其粘贴到另一个程序(单词、记事本)中 - “特殊”字符不能正确传输(我在它们的位置上得到了其他奇怪的字符)。
我曾尝试从 Acrobat Reader 和 Foxit 中复制文本。
有什么我可以在这里复制的吗?
谢谢