我有一个巨大的数据集(超过 200 万行,超过 100 个变量;下面是一个小样本)。对于每个subj_trial组,我想在 .wav 中找到包含在“.wav”中的每个唯一变量的第一次出现message。它应该只是包含,而不是结尾(即 *.wav),因为某些行在message字段中包含一堆信息(示例中未显示,抱歉)。
输出只有这三列的 data.frame 是可以的,但这不是必需的。稍后我将需要使用该timestamp列进行分析。
我发现了这个问题:为数据框中第一次出现变量提取行,但对于我的生活,我无法使用该示例来适合我的。
以下是一些示例数据:
subj_trial message timestamp
1 1_1 message 459 755616
2 1_1 . 755618
3 1_1 test1.wav 755662
4 1_1 . 765712
5 1_1 test1.wav 767918
6 1_2 . 769342
7 1_2 test2.wav 775662
8 1_2 . 786412
9 1_2 test2.wav 797460
10 1_2 . 807626
11 1_3 test3.wav 817794
12 1_3 warning 11 827960
13 2_1 message 481 …Run Code Online (Sandbox Code Playgroud) r ×1