在 pdf 文件中搜索特殊字符或简短的数学符号

Question

在 pdf 文件中搜索特殊字符或简短的数学符号

Sof*_*mur 7 pdf latex character-encoding pdf-reader special-characters

我有 Adobe Reader、Okular 和 Document Viewer 作为 pdf 阅读器。我阅读的论文通常是带有数学公式的文本，由 LaTeX 生成。

但是，使用这些查看器在 pdf 文件中搜索特殊字符或数学符号似乎并不完美。我通常做的是从文件中选择关键部分（特殊字符或数学表达式），然后Ctrl+C，然后Ctrl+F，然后Ctrl+V，很多时候观众突出显示的是不正确的。

我相信这对查看者来说是一个重要的功能，并且确实需要在文档中不仅查找单词而且查找特殊字符。

谁能告诉我你是如何解决这个问题的？有没有更好的pdf阅读器或任何智能的搜索方式？

Answer 1

Jon*_*erg 5

您的问题可能没有通用的解决方案，尽管如果有的话那就很酷了。

\n\n

问题的核心在于 PDF 旨在指定打印时的外观。能够在 PDF 中搜索公式可能并不是主要问题。所以问题不在于观看者，而在于观看者。问题是 PDF 不包含您正在寻找的可访问的信息。

\n\n

例如，当公式中有一个 alpha (\xce\xb1) 时，可以对其进行编码

\n\n

作为 Unicode 字符U+03B1
作为简单的a希腊字体（我想到了 Windows 字体符号）
或者它可能只是一个适当的矢量图形，看起来像 Alpha，但没有与之关联的 ASCII 或 Unicode 字符。

\n\n

在第一种情况下，您的解决方案可能应该有效，但在第二种情况下，搜索将在文本中的每个“a”处停止。在第三种情况下，搜索将一无所获，因为没有要搜索的文本。

\n\n

当您搜索具有索引的元素（例如）时，问题会变得更加困难。这需要以某种方式排版（B 在 A 下面，C 在其上面），但是 PDF 创建者应按什么顺序将这三个字符插入文本框并没有固定的规则；它甚至可以决定创建三个单独的文本框，或者决定公式的所有较高索引排在前面，较低索引排在最后。$A_B^C

\n\n
例如，该公式 $A_B^C = D^E_F$ 可以表示为
\n\n
\n
欧洲工商银行联合会
\n
\n\n
或者
\n\n
\n
ABCDEF
\n
\n\n
或者
\n\n
\n
ACBDFE
\n
\n\n
或者 PDF 创建者喜欢的任何其他方式，只要每个字母的位置信息正确以生成正确的公式即可。不用说，在第一种和第三种情况下，你将很难搜索“$A_B$\”...
\n\n
解释完所有这些之后，你能做什么？
\n\n
\n
不多
\n
尝试将 PDF 打印为 TIF，然后使用可以处理数学符号的工具对其进行 OCR
\n
游说论文作者在arxiv.org上发布预印本以及 LaTex 源代码，您可以更轻松地搜索该源代码
\n
游说 Adobe 在下一版本的 PDF 中添加一种“方程支持”来解决该问题；当然，这需要在用于创建和修改 PDF 的工具中实现
\n
\n

归档时间：	14 年，6 月前
查看次数：	3972 次
最近记录：	12 年，10 月前