如何基于部分字符串匹配与R合并两个数据框？

Question

如何基于部分字符串匹配与R合并两个数据框？

我有两个数据框：

第一个包含大量蛋白质，我对其进行了多次计算。这里有一个例子：

>Accession  Description # Peptides A2   # PSM A2    # Peptides B2   # PSM B2    # Peptides C2   # PSM C2    # Peptides D2   # PSM D2    # Peptides E2   # PSM E2    # AAs   MW [kDa]    calc. pI
P01837  Ig kappa chain C region OS=Mus musculus PE=1 SV=1 - [IGKC_MOUSE]    10  319 8   128 8   116 7   114         106 11,8    5,41
P01868  Ig gamma-1 chain C region secreted form OS=Mus musculus GN=Ighg1 PE=1 SV=1 - [IGHG1_MOUSE]  13  251 15  122 16  116 16  108         324 35,7    7,40
P60710  Actin, cytoplasmic 1 OS=Mus musculus GN=Actb PE=1 SV=1 - [ACTB_MOUSE]   15  215 10  37  11  30  11  31  16  154 375 41,7    5,48

Run Code Online (Sandbox Code Playgroud)

第二个包含感兴趣的蛋白质。这里有一个例子：

>complex    Description Accession   protein
TFIID   [TAF1_MOUSE]    Q80UV9-3    Isoform 3 of Transcription initiation factor TFIID subunit 1 OS=Mus musculus GN=Taf1 - [TAF1_MOUSE]
TFIID   [TAF2_MOUSE]    Q8C176  Transcription initiation factor TFIID subunit 2 OS=Mus musculus GN=Taf2 PE=2 SV=2 - [TAF2_MOUSE]
TFIID   [TAF3_MOUSE]    Q5HZG4  Transcription initiation factor TFIID subunit 3 OS=Mus musculus GN=Taf3 PE=1 SV=2 - [TAF3_MOUSE]

Run Code Online (Sandbox Code Playgroud)

我想要做的是：获取一个数据框，其中包含我对感兴趣的蛋白质的计算中的值。在第一次尝试中，我使用了：

fusion <- merge.data.frame(x=tableaucleanIPTAFXwoNA, y=sublist, by.x="Description", by.y="protein", all =FALSE)

Run Code Online (Sandbox Code Playgroud)

但是，两个数据帧之间的蛋白质名称命名法不同，使用合并功能这不起作用。

那么，当“TAF10”是“转录起始因子 TFIID 亚基 10 OS=Mus musculus GN=Taf10 PE=1 SV=1 - [TAF10_MOUSE]”字符串文本的一部分时，我如何执行它的部分匹配？换句话说，我希望 R 只识别整个字符串的一部分。

我尝试使用 grep 函数：

idx2 <- sapply("tableaucleanIPTAFX$Description", grep, "sublist$Description")

Run Code Online (Sandbox Code Playgroud)

但是，我明白了：

as.data.frame(idx2)
[1] tableaucleanIPTAFX.Description
<0 rows> (or 0-length row.names)

Run Code Online (Sandbox Code Playgroud)

我猜是，模式没有被正确识别......然后我访问了RegExr网站，写了一个正则表达式，以便可以识别我的id名称。我发现这可以将 [TRRAP_MOUSE] 识别为

转化/转录域相关蛋白 OS=Mus musculus GN=Trrap PE=1 SV=2 - [TRRAP_MOUSE] :

和

 /(TRRAP_[MOUSE])\w+/g

Run Code Online (Sandbox Code Playgroud)

我想知道如何将它实现到我的 id 列表（我的示例中的“描述”列）？

Answer 1

Zel*_*ny7 6

这可能对您有用，并且可以处理重复项：

首先是一些虚拟数据：

df1 <- data.frame(name=c("George", "Abraham", "Barack"), stringsAsFactors = F)
df2 <- data.frame(president=c("Thanks, Obama (Barack)","Lincoln, Abraham, George""George Washington"), stringsAsFactors = F)

Run Code Online (Sandbox Code Playgroud)

使用grep以下命令在完整描述中查找代码：

idx2 <- sapply(df1$name, grep, df2$president)

Run Code Online (Sandbox Code Playgroud)

如果多个描述与代码匹配，这可能会导致多个匹配，所以在这里我复制原始索引以便结果对齐：

idx1 <- sapply(seq_along(idx2), function(i) rep(i, length(idx2[[i]])))

Run Code Online (Sandbox Code Playgroud)

“合并”与cbind新索引对齐的数据集：

> cbind(df1[unlist(idx1),,drop=F], df2[unlist(idx2),,drop=F])
       name                president
1    George Lincoln, Abraham, George
1.1  George        George Washington
2   Abraham Lincoln, Abraham, George
3    Barack   Thanks, Obama (Barack)

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	9096 次
最近记录：	6 年，11 月前