相关疑难解决方法(0)

以编程方式将LaTeX代码转换/解析为纯文本

我有几个C++/Python的代码项目,其中使用LaTeX格式的描述和标签来生成使用LaTeX + pstricks制作的PDF文档或图形.但是,我们还有一些纯文本输出,例如文档的HTML版本(我已经有代码为其编写最小标记)和非TeX启用的绘图渲染器.

对于这些,我想消除例如代表物理单位所必需的TeX标记.这包括非破坏(稀疏)空格,\ text,\ mathrm等.对于纯文本输出,将\ frac {#1} {#2}之类的内容解析为#1 /#2也是很好的(和将MathJax用于HTML).由于我们目前已经拥有的系统,我需要能够从Python执行此操作,即理想情况下我正在寻找Python包,但我可以从Python调用非Python可执行文件并捕获输出字符串也没问题.

我知道在TeX StackExchange网站上类似的问题,但是没有任何真正的程序化解决方案:我看过detex,plasTeX和pytex,他们看起来都有点死了,并没有真正做到我需要的是:将TeX字符串编程转换为代表性的纯文本字符串.

我可以尝试使用例如pyparsing来编写一个基本的TeX解析器,但是a)可能会陷入困境并得到帮助,并且b)肯定有人之前尝试过,或者知道一种方法来连接到TeX本身以获得更好的结果?

更新:感谢所有的答案......它确实看起来确实是一个尴尬的请求!我可以用少于一般的LaTeX解析来做,但是在循环中考虑解析器而不是加载正则表达式的原因是我希望能够很好地处理嵌套宏和多arg宏,并得到大括号匹配工作正常.然后我可以首先减少txt无关的宏,比如\ text和\ mathrm,并处理txt相关的宏,比如\ frac last ...甚至可以用合适的括号!好吧,我可以梦想...现在正则表达并没有做那么糟糕的工作.

python parsing text latex

7
推荐指数
3
解决办法
9653
查看次数

标签 统计

latex ×1

parsing ×1

python ×1

text ×1