学术参考文献中引文文本的自动解析

Ali*_*ock 19 citations parsing

是否有任何软件(或伪代码)可以自动扫描一段文本(粘贴到工具中,或从 .doc/.pdf 中读取)并使用标准格式识别引文数据?然后将数据拆分为其组成字段并以 XML、CSV 或其他一些结构化数据格式导出。我看过cb2Bib但它只能从哈佛风格的参考文献中提取年份,这是不够的。

Ash*_*Ash 2

尝试使用Regex BuddyExpresso等工具。

如果您不是程序员,正则表达式可能有点令人生畏,但它们实际上并不难,尤其是使用像上述之一这样的不错的工具。

这是一个使用正则表达式提取引文的示例:

引用解析正则表达式