我想使用轻量级标记语言在我的大学课堂上做笔记.
我选择的编辑器是gedit,我找到了Gedit的reStructuredText工具,它将运行reStructuredText处理器并在gedit的窗格中呈现HTML.这很棒,80%的路在那里.
但对于我的许多课程,我需要在笔记中包含数学方程式或希腊字符.虽然我对LaTeX不是很熟悉,但我的理解是它具有这些功能.
如何在reST文档中使用LaTeX?是否需要将reST文档处理为LaTeX,然后将其呈现为HTML,还是有更好的方法?降价会让这更容易吗?如有必要,我可以修改gedit插件.
最后,有人这样做吗?在纯文本编辑器中获取课堂笔记的任何其他建议?
谢谢!
我的数据集由作为 .tex 文件的 arXiv 天体物理学文章组成,我只需要从文章正文中提取文本,而不是从文章的任何其他部分(例如表格、图表、摘要、标题、脚注、致谢、引文等) .)
我一直在尝试使用 Python3 和tex2py,但我正在努力获得一个干净的语料库,因为文件在标签上有所不同,并且文本在标签之间被分解。
我附上了一个 SSCCE、几个示例 Latex 文件及其 pdf,以及解析的语料库。语料库显示了我的挣扎:节和小节没有按顺序提取,在某些标签处文本中断,并且包含了一些表格和图形。
代码:
import os
from tex2py import tex2py
corpus = open('corpus2.tex', 'a')
def parseFiles():
"""
Parses downloaded document .tex files for word content.
We are only interested in the article body, defined by /section tags.
"""
for file in os.listdir("latex"):
if file.endswith('.tex'):
print('\nChecking ' + file + '...')
with open("latex/" + file) as f:
try:
toc = tex2py(f) # toc = tree of contents
# …Run Code Online (Sandbox Code Playgroud)