从tex中提取文本,删除乳胶标签

cb0*_*cb0 18 latex

我有一些.tex文件,我希望从中接收纯文本而没有任何乳胶标签,例如\ section {...}或\newpage.
有没有人知道如何实现这一目标?我也有.pdf文件,但是当我从那里复制代码时,有些单词会被连接起来,这真的很糟糕.
你知道有什么工具吗?

Cha*_*tin 22

detex(1):

有关最新版本的OpenDetex,请参阅OpenDetex GitHub页面.它是我原始DeTeX的一个更现代的衍生版本.

我的遗留DeTeX主页在此处获得.

如果您只想要传统的detex-2.8.tar源代码,可以在此处获取.

  • 仅适用于ASCII tex文件.如果您使用带有非ASCII字符的xelatex和UTF-8编码的tex文件,则detex会输出非ASCII字符的垃圾. (4认同)

小智 6

opendetex 适用于Windows和Linux

从这里下载程序opendetex
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list

用法:http: //code.google.com/p/opendetex/wiki/Usage

将其解压缩到您选择的任何目录.假设您将其解压缩到Downloads目录.

在其中创建任何名称的另一个目录(可选.但如果你创建它的好处).说目录名是"my_paper".将您的论文放在"my_paper"目录中.说你的论文名是project.tex

浏览路径

cd ~/Downloads/opendetex
Run Code Online (Sandbox Code Playgroud)

运行命令

detex -n my_paper/project.tex  > out.txt
Run Code Online (Sandbox Code Playgroud)

通用形式

detex -n full_path_to_tex_file.tex > output_text_file.txt
Run Code Online (Sandbox Code Playgroud)