在数据框中重新排序因子名称的级别

HoH*_*oHo 1 sorting r r-factor

DF只有一个专栏:DF$A。这是我需要以特定方式重新排列名称的因素:

l
pheno
l.ldl.a
m.ldl.b
s.ldl.c
x.vldl.b
l.vldl.c
m.vldl.d
s.vldl.f
xs.vldl.h
xxl.vldl.a
xl.hdl.a
l.hdl.b
m.hdl.c
s.hdl.d
Run Code Online (Sandbox Code Playgroud)

我尝试根据两个column 2顺序重新创建DF$A

reorderLevels <- c(XXL.VLDL,XL.VLDL,L.VLDL,M.VLDL,S.VLDL,XS.VLDL, 
                   IDL,L.LDL,M.LDL,S.LDL,XL.HDL,L.HDL,M.HDL,S.HDL)
Run Code Online (Sandbox Code Playgroud)

无需关心名称的最后一部分。

我知道如何根据名称的第一部分(第一个点之前)或根据名称的第二部分(点之间的部分)重新排序,但是我不知道如何根据名称的两个部分进行排序。

到目前为止,我可以使用以下命令对其重新排序,但仅根据名称的一部分

l1 <- l %>% mutate(m2 = match(sapply(strsplit(l$pheno, "[.]"),
                          function(x) x[1]), reorderLevels)) %>%
            arrange(m2) %>%
            select(-m2)
Run Code Online (Sandbox Code Playgroud)

Eri*_*rin 5

我不确定您要问什么。我认为您想DF$A根据以下方案对因子进行重新排序:

  • 最高优先级:按中间部分排列,顺序如下:

    middle.ordering = c('vldl', 'idl', 'ldl', 'hdl')
    
    Run Code Online (Sandbox Code Playgroud)
  • 第二优先级:按以下顺序排列第一部分(即使您不在,我也添加了一个“ x” reoderLines,因为您在DF $ A中有一个“ x”):

    first.ordering = c('xxl', 'xl', 'l', 'm', 's', 'x', 'xs')
    
    Run Code Online (Sandbox Code Playgroud)
  • 您不必关心上一节的顺序,但是我只知道如果我们指定一个即可轻松解决此问题,所以我选择了我在上一节中看到的字母的任意顺序:

    last.ordering = c('a', 'b', 'c', 'd', 'f', 'h')
    
    Run Code Online (Sandbox Code Playgroud)

至于您的最终输出,我不知道您想要什么。我可以想到您可能想要的4件事:

  • DF$A按照您写入的确切顺序,但按您想要的顺序添加新级别。如果您绘制这些数据的图,这将很有用,因为这些图将根据因子水平进行排列。这也意味着,如果数据框中还有其他列,则可以使所有行中的配对保持相同。看起来像这样:

     [1] l.ldl.a    m.ldl.b    s.ldl.c    x.vldl.b   l.vldl.c   m.vldl.d   s.vldl.f   xs.vldl.h  xxl.vldl.a xl.hdl.a   l.hdl.b    m.hdl.c   
    [13] s.hdl.d   
    Levels: xxl.vldl.a l.vldl.c m.vldl.d s.vldl.f x.vldl.b xs.vldl.h l.ldl.a m.ldl.b s.ldl.c xl.hdl.a l.hdl.b m.hdl.c s.hdl.d
    
    Run Code Online (Sandbox Code Playgroud)
  • DF$A以新的顺序排列,但具有与以前相同的字母排序级别(例如,级别1对应于l.hdl.b,因为这是DF$A按字母顺序排列的第一个元素)。看起来像这样:

     [1] xxl.vldl.a l.vldl.c   m.vldl.d   s.vldl.f   x.vldl.b   xs.vldl.h  l.ldl.a    m.ldl.b    s.ldl.c    xl.hdl.a   l.hdl.b    m.hdl.c   
    [13] s.hdl.d   
    Levels: l.hdl.b l.ldl.a l.vldl.c m.hdl.c m.ldl.b m.vldl.d s.hdl.d s.ldl.c s.vldl.f xl.hdl.a xs.vldl.h x.vldl.b xxl.vldl.a
    
    Run Code Online (Sandbox Code Playgroud)
  • DF$A以新的顺序,以新的水平。看起来像这样:

     [1] xxl.vldl.a l.vldl.c   m.vldl.d   s.vldl.f   x.vldl.b   xs.vldl.h  l.ldl.a    m.ldl.b    s.ldl.c    xl.hdl.a   l.hdl.b    m.hdl.c   
    [13] s.hdl.d   
    Levels: xxl.vldl.a l.vldl.c m.vldl.d s.vldl.f x.vldl.b xs.vldl.h l.ldl.a m.ldl.b s.ldl.c xl.hdl.a l.hdl.b m.hdl.c s.hdl.d
    
    Run Code Online (Sandbox Code Playgroud)
  • 您可能还希望对DF $ A中实际实现的因子具有更多可能的水平,例如,如果以后要添加更多数据。如果是这种情况,那么您的输出将看起来像这样,其中三个部分的所有可能排序都占:

     [1] l.ldl.a    m.ldl.b    s.ldl.c    x.vldl.b   l.vldl.c   m.vldl.d   s.vldl.f   xs.vldl.h  xxl.vldl.a xl.hdl.a   l.hdl.b    m.hdl.c   
    [13] s.hdl.d   
    168 Levels: xxl.vldl.a xxl.vldl.b xxl.vldl.c xxl.vldl.d xxl.vldl.f xxl.vldl.h xl.vldl.a xl.vldl.b xl.vldl.c xl.vldl.d xl.vldl.f ... xs.hdl.h
    
    Run Code Online (Sandbox Code Playgroud)

如果您想要这些东西之一,那么可以通过以下方法来完成其中的每一项:

DF = data.frame(A=factor(c(
  'l.ldl.a',
  'm.ldl.b',
  's.ldl.c',
  'x.vldl.b',
  'l.vldl.c',
  'm.vldl.d',
  's.vldl.f',
  'xs.vldl.h',
  'xxl.vldl.a',
  'xl.hdl.a',
  'l.hdl.b',
  'm.hdl.c',
  's.hdl.d')))

first.ordering = c('xxl', 'xl', 'l', 'm', 's', 'x', 'xs')
middle.ordering = c('vldl', 'idl', 'ldl', 'hdl')
last.ordering = c('a', 'b', 'c', 'd', 'f', 'h')

# make a big cartesion product of the orderings,
# making sure that the top-priority orderings are mentioned *last*
# in expand.gird
complete.ordering = with(
  expand.grid(last.ordering, first.ordering, middle.ordering),
  paste(Var2, Var3, Var1, sep='.'))
new.levels = complete.ordering[complete.ordering %in% DF$A]

A.with.new.levels.but.same.order = factor(DF$A, levels=new.levels)
A.with.new.order.but.same.levels = DF$A[order(as.numeric(A.with.new.levels.but.same.order))]
A.with.new.order.and.levels = factor(A.with.new.order.but.same.levels, levels=new.levels)
A.with.same.order.and.more.levels = factor(DF$A, levels=complete.ordering)
Run Code Online (Sandbox Code Playgroud)

另外,如果您的原始数据框具有更多列,例如,它看起来像这样:

            A another.column
1     l.ldl.a              1
2     m.ldl.b              2
3     s.ldl.c              3
4    x.vldl.b              4
5    l.vldl.c              5
6    m.vldl.d              6
7    s.vldl.f              7
8   xs.vldl.h              8
9  xxl.vldl.a              9
10   xl.hdl.a             10
11    l.hdl.b             11
12    m.hdl.c             12
13    s.hdl.d             13
Run Code Online (Sandbox Code Playgroud)

并且您想要重新排列所有行的顺序,保留每一行元素之间的关联,那么您可以执行以下操作:

A.with.new.levels.but.same.order = factor(DF$A, levels=new.levels)
DF.with.new.order = DF[order(as.numeric(A.with.new.levels.but.same.order)),]
Run Code Online (Sandbox Code Playgroud)

这将为您提供以下数据框:

            A another.column
9  xxl.vldl.a              9
5    l.vldl.c              5
6    m.vldl.d              6
7    s.vldl.f              7
4    x.vldl.b              4
8   xs.vldl.h              8
1     l.ldl.a              1
2     m.ldl.b              2
3     s.ldl.c              3
10   xl.hdl.a             10
11    l.hdl.b             11
12    m.hdl.c             12
13    s.hdl.d             13
Run Code Online (Sandbox Code Playgroud)