标签: traminer

使用TraMineR计算序列距离期间的大数据(？)问题

我正在尝试使用TraMineR运行最佳匹配分析,但似乎我遇到了数据集大小的问题.我有一个包含就业法术的欧洲国家的大数据集.我有超过57,000个序列,长48个单位,由9个不同的状态组成.为了了解分析,这里是序列对象的头部employdat.sts:

[1] EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-...  
[2] EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-...  
[3] ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-...  
[4] ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-...  
[5] EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-...  
[6] ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-...

Run Code Online (Sandbox Code Playgroud)

在较短的SPS格式中,其内容如下:

Sequence               
[1] "(EF,48)"              
[2] "(EF,48)"              
[3] "(ST,48)"              
[4] "(ST,36)-(MS,3)-(EF,9)"
[5] "(EF,48)"              
[6] "(ST,24)-(EF,24)"

Run Code Online (Sandbox Code Playgroud)

将此序列对象传递给seqdist()函数后,我收到以下错误消息:

employdat.om <- seqdist(employdat.sts, method="OM", sm="CONSTANT", indel=4)    
[>] creating 9x9 substitution-cost matrix using 2 as constant value  
[>] 57160 sequences with 9 distinct events/states  
[>] 12626 distinct sequences  
[>] min/max sequence length: 48/48  
[>] computing distances using OM metric  
Error in .Call(TMR_cstringdistance, as.integer(dseq), as.integer(dim(dseq)),  : negative length vectors are …

Run Code Online (Sandbox Code Playgroud)

r traminer

non*_*ent

lucky-day

7
推荐指数

1
解决办法

1311
查看次数

以文本/表格格式显示TraMineR(R)树形图

我使用以下R代码生成带有基于TraMineR序列的标签的树形图(参见附图):

library(TraMineR)
library(cluster)
clusterward <- agnes(twitter.om, diss = TRUE, method = "ward")
plot(clusterward, which.plots = 2, labels=colnames(twitter_sequences))

Run Code Online (Sandbox Code Playgroud)

完整代码(包括数据集)可以在这里找到.

由于树形图以图形方式提供信息,因此以文本和/或表格格式获取相同信息将非常方便.如果我调用对象clusterward的任何方面(由agnes创建),例如"order"或"merge",我会使用数字而不是我得到的名称来标记所有内容colnames(twitter_sequences).另外,我看不出如何输出树形图中以图形方式表示的分组.

总结一下:如何使用R以及理想情况下的电车/集群库正确显示标签,以文本/表格格式获取集群输出？

在此输入图像描述

r cluster-analysis dendrogram traminer

his*_*eim

2013 04-06

6
推荐指数

1
解决办法

2031
查看次数

"不对称"成对距离矩阵

假设有三个序列要比较:a,b和c.传统上,得到的3乘3成对距离矩阵是对称的,表明从a到b的距离等于从b到a的距离.

我想知道TraMineR是否提供了一些方法来产生不对称的成对距离矩阵.

r matrix symmetry traminer

POT*_*NZA

2013 04-06

6
推荐指数

1
解决办法

1664
查看次数

从SPELL数据创建序列对象

我正在尝试seqdef使用SPELL格式创建一个序列对象.以下是我的数据示例:

spell <- structure(list(ID = c(1, 3, 3, 4, 5, 5, 6, 8, 9, 10, 11, 11, 
12, 13, 13, 13, 13, 14, 14, 14, 14, 14, 14, 14, 14, 14, 15, 15, 
15, 15, 15, 15, 15, 16, 16, 16, 16, 17, 17, 17, 18, 18, 18, 19, 
19), status = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 
1, 1, 2, 3, 1, 2, 3, 2, 3, 1, 1, …

Run Code Online (Sandbox Code Playgroud)

r traminer

Max*_*m.K

2013 04-20

6
推荐指数

1
解决办法

733
查看次数

查找序列中的特定模式

我正在使用R包TraMineR进行一些学术研究序列分析.

我想找到一个模式,定义为某人在目标公司,然后出去,然后回到目标公司.

(简化)我将州A定义为目标公司; B作为外部工业公司,C作为内部工业公司.

所以我想要做的是找到具有特定模式ABA或ACA的序列.

在查看这个问题(奇怪的子序列数？)并阅读用户指南后,特别是以下段落:

4.3.3子序列如果u的所有连续元素ui以相同的顺序出现在x中,则序列u是x的子序列,我们简单地用u x表示.根据这个定义,非共享>状态可以出现在序列u和x的共同序列之间.例如,u = S; M是x = S的>子序列; U; 米; MC.

和

7.3.2查找具有给定子序列的序列seqpm()函数计算包含给定子序列的序列数并收集其行索引号.该函数返回一个包含两个元素的列表.第一个元素MTab只是一个表,其中包含数据中给定子序列的出现次数.请注意,即使子序列在序列中出现多次,每个序列也只计算一次出现次数.列表的第二个元素MIndex给出包含子序列的序列的行索引号.这些索引号可用于访问相关序列(下面的示例).由于在字符串中搜索模式更容易,因此当使用带有TRUE选项的seqconc函数时,函数rst以此格式转换序列数据.

我得出结论,seqpm()是我完成工作所需的功能.

所以我的序列如下:AAAAABBBBBAAAAA

而且,根据我在mentiod源上找到的子序列的定义,我想我可以通过使用以下方式找到这种序列:

seqpm(sequence,"ABA")

Run Code Online (Sandbox Code Playgroud)

但这不会发生.为了找到我需要输入的示例序列

seqpm(sequence,"ABBBBBA")

Run Code Online (Sandbox Code Playgroud)

这对我需要的东西不是很有用.

所以你们看到我可能错过了哪些东西？
如何检索从A到B和返回A的所有序列？
有没有办法让我找到从A到其他任何东西,然后回到A？

非常感谢 !

r traminer

Ped*_*raz

2017 05-23

6
推荐指数

1
解决办法

2152
查看次数

使用TraMineR的时间日记数据

我正在尝试使用R中的TraMineR使用时间日记数据(美国时间使用调查)进行序列分析.我将数据作为SPELL数据(id,开始时间,停止时间,事件)但是在尝试时我收到以下错误将其转换为STS或SPS数据:

as.matrix.data.frame中的错误(subset(data,,2)):dims [product 0]与object [9]的长度不匹配

我认为这与我如何将时间(作为角色)转换为日期/时间类型有关.我相信TraMineR需要一个POSIXlt格式？

这是我原始数据的片段(trcode是事件)

头(atus.act.short)

     tucaseid tustarttim tustoptime trcode
1 2.00701e+13   04:00:00   08:00:00  10101
2 2.00701e+13   08:00:00   08:20:00 110101
3 2.00701e+13   08:20:00   08:50:00  10201
4 2.00701e+13   08:50:00   09:30:00  20102
5 2.00701e+13   09:30:00   09:40:00 180201
6 2.00701e+13   09:40:00   11:40:00  20102

Run Code Online (Sandbox Code Playgroud)

我使用strptime将字符串转换为POSIXlt:

atus.act.short$starttime.new <- strptime(atus.act.short$tustarttim, format="%X")
atus.act.short$stoptime.new  <- strptime(atus.act.short$tustoptime, format="%X")

Run Code Online (Sandbox Code Playgroud)

我还将ID减少到只有两位数

  atus.act.short$id <- atus.act.short$tucaseid-20070101070000

Run Code Online (Sandbox Code Playgroud)

我最终得到一个新的数据框如下:

   id       starttime.new        stoptime.new trcode
1  44 2012-08-03 04:00:00 2012-08-03 08:00:00  10101
2  44 2012-08-03 08:00:00 2012-08-03 08:20:00 110101
3  44 2012-08-03 08:20:00 2012-08-03 08:50:00 …

Run Code Online (Sandbox Code Playgroud)

r traminer

mCo*_*rey

2013 04-06

5
推荐指数

1
解决办法

499
查看次数

使用"by"创建多个图表标题

我试图使用"for"的"by",以便使用一个或两个组变量创建许多子图.两组变量都是一个因子变量(性别是虚拟的,父亲的社会地位有多个级别).如何在图例或图表标题中添加组的级别(也称为名称)？

这是我正在使用的代码.

library(TraMineR)  
library(Hmisc)
data(biofam)
biofam.lab <- c("Parent", "Left", "Married", "Left+Marr",
            "Child", "Left+Child", "Left+Marr+Child", "Divorced")
biofam.seq <- seqdef(biofam, 10:25, labels=biofam.lab)

class(biofam$sex)
levels(biofam$sex)
describe(biofam$sex)

class(biofam$cspfaj)
levels(biofam$cspfaj)
describe(biofam$cspfaj)

### Simple plots
seqdplot(biofam.seq)
seqdplot(biofam.seq, group=biofam$sex, title="Marital status by gender")

### Plot with automatic title using "by"
by(biofam.seq, biofam$sex, function(X) seqdplot(X, title="X$sex[1]"))
by(biofam.seq, biofam$sex, function(X) seqdplot(X, title=X$sex[1]))

### Plot with automatic title and multiple-grouping using "for"
for(n in c(1, 2, 3)) {
  seqdplot(subset(biofam.seq, subset=biofam$cspfaj==(n)), title="(n)")
}
for(n in c(1, 2, 3)) {
  seqdplot(subset(biofam.seq, subset=biofam$cspfaj==(n)), …

Run Code Online (Sandbox Code Playgroud)

r traminer

作者

2013 04-06

5
推荐指数

1
解决办法

279
查看次数

Traminer 中的多个事件

我正在尝试使用 TraMineR 一次分析多个序列。我已经看过 seqdef 但我很难理解当我处理多个变量时如何创建 TraMineR 数据集。我想我正在使用类似于 Aassve 等人使用的数据集的东西。（如教程中提到的），其中每个波都有关于几个状态的信息（例如孩子、婚姻、就业）。我所有的变量都是二进制的。以下是包含三个波浪 (D、W2、W3) 和三个变量的数据集示例。

D<-data.frame(ID=c(1:4),A1=c(1,1,1,0),B1=c(0,1,0,1),C1=c(0,0,0,1))
W2<-data.frame(A2=c(0,1,1,0),B2=c(1,1,0,1),C2=c(0,1,0,1))
W3<-data.frame(A3=c(0,1,1,0),B3=c(1,1,0,1),C3=c(0,1,0,1))
L<-data.frame(D,W2,W3)

Run Code Online (Sandbox Code Playgroud)

我可能是错的，但我发现的材料一次只涉及一个变量的数据管理和分析（例如，跨几波的就业状况）。我的数据集比上面的数据集大得多，因此我无法真正手动估算这些数据，如本教程第 48 页所示。有人使用 TraMineR （或类似的软件包）处理过这种类型的数据吗？

1) 您如何将上述数据提供给 TraMineR？

2）如何计算替代成本，然后对它们进行聚类？

非常感谢

r traminer

may*_*bra

lucky-day

5
推荐指数

1
解决办法

1047
查看次数