在 R Markdown 中使用 citation() 自动生成 R 包的参考书目

bre*_*auv 5 r r-markdown

我想引用一个项目中使用的 R 包,但由于它们相当多,我认为创建两个单独的参考部分是个好主意:一个包含我特定领域的引用,一个包含 R 的引用包。

我的第一个想法是检查我是否可以在 .bib 文件中一次导出所有使用的包的引用,但我不确定 R Markdown 可以处理 .bib 文件和特定于我的论文的参考书目域和 R 包的 .bib 文件。

由于函数citation()toBibtex()生成 Bibtex 引文,我认为可以直接在 .Rmd 文件中使用这些函数生成专用于 R 包的参考部分。但是,当这些命令包含在带有 R Markdown 的块中时,似乎不可能自动格式化引用。

这是我正在尝试做的事情的可重现示例:

---
title: "Cite R packages"
author: ""
date: "01/02/2020"
output: pdf_document
bibliography: test.bib
---

This is a citation of a paper: @mayer2011.

# Bibliography {-}
\setlength{\parindent}{-0.2in}
\setlength{\leftskip}{0.2in}
\noindent
<div id="refs"></div>
```{r refmgr references, results="asis", echo=FALSE}
# Print
```
\setlength{\parindent}{0in}
\setlength{\leftskip}{0in}
\setlength{\parskip}{0pt}

# Bibliography for R packages {-}
```{r}
citation("dplyr")
toBibtex(citation("dplyr"))
```
Run Code Online (Sandbox Code Playgroud)

这是内容test.bib

@article{mayer2011,
  title = {Notes on {{CEPII}}'s {{Distances Measures}}: {{The GeoDist Database}}},
  shorttitle = {Notes on {{CEPII}}'s {{Distances Measures}}},
  journal = {SSRN Electronic Journal},
  doi = {10.2139/ssrn.1994531},
  author = {Mayer, Thierry and Zignago, Soledad},
  year = {2011}
}
Run Code Online (Sandbox Code Playgroud)

关于如何在单独的参考部分中轻松包含 R 包的引用的任何想法?

编辑:请参阅此处了解另一种解决方案。

All*_*ron 5

这里有两个独立但相关的问题:

  1. 如何以编程方式引用包
  2. 如何在 Markdown 文档中有两个单独的参考部分

两者都有解决方案,我将依次介绍:


如何以编程方式引用包

这里的关键是意识到 Pandoc 只会在 R 代码块运行编写您的文档。这使您有机会以.bib编程方式编写文件作为 R markdown 文档的一部分,该文件仅在文档创建阶段由 Pandoc 读取。

它还取决于能够.bib在您的参考书目中使用两个文件。这也是可能的,但我们暂时不讨论这个问题。

您需要的是一个函数,该函数将采用包名称、获取 bibtex 格式的引文、将它们全部粘贴在一起并将它们保存为.bib文件。我在这里编写了一个示例函数来展示如何做到这一点。

此函数必须处理吐出多个 bibtex 引用的包,它会自动将包名称插入 bibtex,以便您可以使用 @packagename 引用 Markdown 中的任何包。它使用非标准评估和...参数,因此您无需引用包名称或将它们包装在c()

citeR <- function(...)
{
  packages <- unlist(lapply(as.list(match.call()), deparse))[-1]
  Rbibs <- ""

  for(package in packages)
  {
    Rbib <- capture.output(print(citation(package), bibtex = T))    
    Rbib <- mapply(function(x, y) Rbib[x:y], 
                   grep("  @.+[{]", Rbib), 
                   which(Rbib == "  }"))

    if(class(Rbib) == "matrix"){
      Rbib[1, 1] <- gsub(",", paste0(package, ","), Rbib[1, 1])
      Rbib <- paste0(Rbib, collapse = "\n")
    } else {
      Rbib <- unlist(lapply(Rbib, function(x) {
                               x[1] <- gsub(",", paste0(package, ","), x[1]); 
                               x <- paste0(unlist(x), collapse = "\n")
                               return(x)
                             }))
    }

    if(length(Rbib) > 1) {
      if(any(grepl("@Manual", Rbib))) {
        Rbib <- Rbib[grep("@Manual", Rbib)][1]
      } else {
        Rbib <- Rbib[1]}}

    Rbibs <- paste(Rbibs, Rbib, sep = "\n\n")
  }

  writeBin(charToRaw(utf8::as_utf8(Rbibs)), "packages.bib")
}
Run Code Online (Sandbox Code Playgroud)

要使用它,您只需将其放入带有 echo = FALSE 的 R 块中,然后执行以下操作:

citeR(dplyr, ggplot2, knitr, pROC)
Run Code Online (Sandbox Code Playgroud)

如何有两个参考部分

我不能相信我从这里得到的这部分答案。它比第一部分涉及更多。首先,你必须使用 lua 过滤器,这需要最新版本的 rmarkdown 和 Pandoc 所以请更新到最新版本,否则这可能不起作用

提供的链接中描述了 lua 过滤器的基本原理,但我将在此处包含它,并完全感谢@tarleb。您必须将以下文件保存multiple-bibliographies.lua在与 Markdown 相同的目录中:

citeR <- function(...)
{
  packages <- unlist(lapply(as.list(match.call()), deparse))[-1]
  Rbibs <- ""

  for(package in packages)
  {
    Rbib <- capture.output(print(citation(package), bibtex = T))    
    Rbib <- mapply(function(x, y) Rbib[x:y], 
                   grep("  @.+[{]", Rbib), 
                   which(Rbib == "  }"))

    if(class(Rbib) == "matrix"){
      Rbib[1, 1] <- gsub(",", paste0(package, ","), Rbib[1, 1])
      Rbib <- paste0(Rbib, collapse = "\n")
    } else {
      Rbib <- unlist(lapply(Rbib, function(x) {
                               x[1] <- gsub(",", paste0(package, ","), x[1]); 
                               x <- paste0(unlist(x), collapse = "\n")
                               return(x)
                             }))
    }

    if(length(Rbib) > 1) {
      if(any(grepl("@Manual", Rbib))) {
        Rbib <- Rbib[grep("@Manual", Rbib)][1]
      } else {
        Rbib <- Rbib[1]}}

    Rbibs <- paste(Rbibs, Rbib, sep = "\n\n")
  }

  writeBin(charToRaw(utf8::as_utf8(Rbibs)), "packages.bib")
}
Run Code Online (Sandbox Code Playgroud)

要使其正常工作,您的 YAML 标头应如下所示:

---
title: "Cite R packages"
author: ''
date: "01/02/2020"
output:
  pdf_document:
    pandoc_args: --lua-filter=multiple-bibliographies.lua
bibliography_software: packages.bib
bibliography_normal: test.bib
---
Run Code Online (Sandbox Code Playgroud)

请注意,packages.bib当您开始编织文档时不需要存在,因为它将在调用 Pandoc 之前创建。

要插入引用部分,您需要将这些 html 片段放在 Markdown 的适当位置:

citeR(dplyr, ggplot2, knitr, pROC)
Run Code Online (Sandbox Code Playgroud)

-- file: multiple-bibliographies.lua

--- collection of all cites in the document
local all_cites = {}
--- document meta value
local doc_meta = pandoc.Meta{}

--- Create a bibliography for a given topic. This acts on all divs whose ID
-- starts with "refs", followed by nothings but underscores and alphanumeric
-- characters.
local function create_topic_bibliography (div)
  local name = div.identifier:match('^refs([_%w]*)$')
  if not name then
    return nil
  end
  local tmp_blocks = {
    pandoc.Para(all_cites),
    pandoc.Div({}, pandoc.Attr('refs')),
  }
  local tmp_meta = pandoc.Meta{bibliography = doc_meta['bibliography' .. name]}
  local tmp_doc = pandoc.Pandoc(tmp_blocks, tmp_meta)
  local res = pandoc.utils.run_json_filter(tmp_doc, 'pandoc-citeproc')
  -- first block of the result contains the dummy para, second is the refs Div
  div.content = res.blocks[2].content
  return div
end

local function resolve_doc_citations (doc)
  -- combine all bibliographies
  local meta = doc.meta
  local orig_bib = meta.bibliography
  meta.bibliography = pandoc.MetaList{orig_bib}
  for name, value in pairs(meta) do
    if name:match('^bibliography_') then
      table.insert(meta.bibliography, value)
    end
  end
  doc = pandoc.utils.run_json_filter(doc, 'pandoc-citeproc')
  doc.meta.bibliography = orig_bib -- restore to original value
  return doc
end

return {
  {
    Cite = function (c) all_cites[#all_cites + 1] = c end,
    Meta = function (m) doc_meta = m end,
  },
  {Pandoc = resolve_doc_citations,},
  {Div = create_topic_bibliography,}
}
Run Code Online (Sandbox Code Playgroud)

把这一切放在一起

我知道这已经是一个很长的答案,但我认为最好包含一个完整的工作示例并显示 pdf 输出:

---
title: "Cite R packages"
author: ''
date: "01/02/2020"
output:
  pdf_document:
    pandoc_args: --lua-filter=multiple-bibliographies.lua
bibliography_software: packages.bib
bibliography_normal: test.bib
---
Run Code Online (Sandbox Code Playgroud)

和 test.pdf 看起来像这样:

在此处输入图片说明

如果您希望自动引用您使用的任何包,您可以以编程方式从library()Markdown 文档中的任何调用中抓取名称。由于实现您的目标的工作流程有点复杂,您可能需要考虑创建一个包含citeR函数、lua 文档和您自己的get_lib_citations_from_library_calls("my_markdown.Rmd")函数的小包,以自动化所有这些。