小编ste*_*tor的帖子

使用模糊逻辑连接两个数据集

我正在尝试在两个数据集之间的R中进行模糊逻辑联接:

  • 第一个数据集具有位置名称和称为 config
  • 第二个数据集具有一个位置的名称和两个附加属性,在将它们加入第一个数据集之前需要对其进行汇总。

我想使用该name列在两个数据集之间进行联接。但是,该name列在数据集中可能包含其他字符或前导字符,或者在较大的单词内部包含一个单词。因此,例如,如果我们查看这两个数据集,我希望名称OPAL加入OPALAS,而SAUSALITO Y加入SAUSALITO。

Dataset1:    
     Name           Config
     ALTO D         BB
     CONTRA         ST
     EIGHT A        DD
     OPALAS         BB
     SAUSALITO Y    AA
     SOLANO J       ST

Dataset2:    
    Name       Age     Rank
    ALTO D     50      2
    ALTO D     20      6
    CONTRA     10      10
    CONTRA     15      15
    EIGHTH     18      21
    OPAL       19      4
    SAUSALITO  2       12
    SOLANO     34      43
Run Code Online (Sandbox Code Playgroud)

数据集2汇总代码

Data2a <- summaryBy(Age ~ Name,FUN=c(mean), data=Data2,na.rm=TRUE)
Data2b <- summaryBy(Rank ~ Name,FUN=c(sum), data=Data2,na.rm=TRUE)
Data2 <- data.frame(Data2a$Name, Data2a$Age.mean, Data2b$Rank.sum)

Desired Outcome:
    Name …
Run Code Online (Sandbox Code Playgroud)

join r string-matching fuzzy-logic fuzzy-comparison

9
推荐指数
1
解决办法
3704
查看次数

删除R中组中只有一个观察值的条目

在这里,我想删除按日期只有一个条目的条目的条目.例如,我想删除纽约和旧金山的参赛作品,因为他们在4-11和4-12只有1次观察.

day                          City                  age
4-10                        Miami                   30
4-10                        Miami                   23
4-11                        New York                24
4-12                        San Francisco           30
Run Code Online (Sandbox Code Playgroud)

注意数据集称为DG

我尝试使用for循环查找日期并了解每个分区每天的条目数,但我不知道如何使用R. countx = 0中的数组

D = unique(DG$day)
for (i in 1:length(D))
{
    for (j in 1:length(DG$age))
    {
      if (DG$day[j] == D{i]
      {
      countx[j] = 1
      }
      else
      {
      countx[j] = 0
      }
    }
Binded <- cbind(countx, DG)
Run Code Online (Sandbox Code Playgroud)

r

5
推荐指数
1
解决办法
2362
查看次数

标签 统计

r ×2

fuzzy-comparison ×1

fuzzy-logic ×1

join ×1

string-matching ×1