Ali*_*ock 19 citations parsing
是否有任何软件(或伪代码)可以自动扫描一段文本(粘贴到工具中,或从 .doc/.pdf 中读取)并使用标准格式识别引文数据?然后将数据拆分为其组成字段并以 XML、CSV 或其他一些结构化数据格式导出。我看过cb2Bib但它只能从哈佛风格的参考文献中提取年份,这是不够的。
如果您不是程序员,正则表达式可能有点令人生畏,但它们实际上并不难,尤其是使用像上述之一这样的不错的工具。
这是一个使用正则表达式提取引文的示例:
| 归档时间: |
|
| 查看次数: |
8996 次 |
| 最近记录: |