在 pdf 文件中搜索特殊字符或简短的数学符号

Sof*_*mur 7 pdf latex character-encoding pdf-reader special-characters

我有 Adob​​e Reader、Okular 和 Document Viewer 作为 pdf 阅读器。我阅读的论文通常是带有数学公式的文本,由 LaTeX 生成。

但是,使用这些查看器在 pdf 文件中搜索特殊字符或数学符号似乎并不完美。我通常做的是从文件中选择关键部分(特殊字符或数学表达式),然后Ctrl+C,然后Ctrl+F,然后Ctrl+V,很多时候观众突出显示的是不正确的。

我相信这对查看者来说是一个重要的功能,并且确实需要在文档中不仅查找单词而且查找特殊字符。

谁能告诉我你是如何解决这个问题的?有没有更好的pdf阅读器或任何智能的搜索方式?

Jon*_*erg 5

您的问题可能没有通用的解决方案,尽管如果有的话那就很酷了。

\n\n

问题的核心在于 PDF 旨在指定打印时的外观。能够在 PDF 中搜索公式可能并不是主要问题。所以问题不在于观看者,而在于观看者。问题是 PDF 不包含您正在寻找的可访问的信息。

\n\n

例如,当公式中有一个 alpha (\xce\xb1) 时,可以对其进行编码

\n\n
    \n
  • 作为 Unicode 字符U+03B1
  • \n
  • 作为简单的a希腊字体(我想到了 Windows 字体符号)
  • \n
  • 或者它可能只是一个适当的矢量图形,看起来像 Alpha,但没有与之关联的 ASCII 或 Unicode 字符。
  • \n
\n\n

在第一种情况下,您的解决方案可能应该有效,但在第二种情况下,搜索将在文本中的每个“a”处停止。在第三种情况下,搜索将一无所获,因为没有要搜索的文本。

\n\n

当您搜索具有索引的元素(例如 )时,问题会变得更加困难。这需要以某种方式排版(B 在 A 下面,C 在其上面),但是 PDF 创建者应按什么顺序将这三个字符插入文本框并没有固定的规则;它甚至可以决定创建三个单独的文本框,或者决定公式的所有较高索引排在前面,较低索引排在最后。$A_B^C

\n\n

例如,该公式$A_B^C = D^E_F$可以表示为

\n\n
\n

欧洲工商银行联合会

\n
\n\n

或者

\n\n
\n

ABCDEF

\n
\n\n

或者

\n\n
\n

ACBDFE

\n
\n\n

或者 PDF 创建者喜欢的任何其他方式,只要每个字母的位置信息正确以生成正确的公式即可。不用说,在第一种和第三种情况下,你将很难搜索“$A_B$\”...

\n\n

解释完所有这些之后,你能做什么?

\n\n
    \n
  • 不多
  • \n
  • 尝试将 PDF 打印为 TIF,然后使用可以处理数学符号的工具对其进行 OCR
  • \n
  • 游说论文作者在arxiv.org上发布预印本以及 LaTex 源代码,您可以更轻松地搜索该源代码
  • \n
  • 游说 Adob​​e 在下一版本的 PDF 中添加一种“方程支持”来解决该问题;当然,这需要在用于创建和修改 PDF 的工具中实现
  • \n
\n