我刚刚开始使用R,我不知道如何将我的数据集与以下示例代码合并:
sample(x, size, replace = FALSE, prob = NULL)
Run Code Online (Sandbox Code Playgroud)
我有一个数据集,我需要进行培训(75%)和测试(25%)设置.我不确定我应该把什么信息放入x和大小?x是数据集文件,并确定了我有多少个样本?
在R中,我想在脚本的末尾检索全局变量列表并迭代它们.这是我的代码
#declare a few sample variables
a<-10
b<-"Hello world"
c<-data.frame()
#get all global variables in script and iterate over them
myGlobals<-objects()
for(i in myGlobals){
print(typeof(i)) #prints 'character'
}
Run Code Online (Sandbox Code Playgroud)
我的问题是,typeof(i)总是返回character,即使变量a和c不字符变量.如何在for循环中获取原始类型的变量?
我有两个数据帧(df和df1).df1是df的子集.我想获得一个数据帧,它是df中df1的补码,即返回第一个数据集的行,这些行在第二个数据集中不匹配.比如让,
数据框df:
heads
row1
row2
row3
row4
row5
Run Code Online (Sandbox Code Playgroud)
数据框df1:
heads
row3
row5
Run Code Online (Sandbox Code Playgroud)
然后所需的输出df2是:
heads
row1
row2
row4
Run Code Online (Sandbox Code Playgroud) 我正在尝试对R中的数据集进行分区,2/3用于训练,1/3用于测试.我有一个分类变量和七个数值变量.每个观察被分类为A,B,C或D.
为简单起见,假设分类变量cl对于前100次观测是A,对于观察101到200是C,C到300,D到400.我正在尝试获得具有2/3的分区对于A,B,C和D中的每一个的观察结果(而不是简单地获得整个数据集的2/3的观察结果,因为它可能没有相同数量的每个分类).
当我尝试从数据的子集中进行采样时,例如sample(subset(data, cl=='A')),列被重新排序而不是行.
总而言之,我的目标是从A,B,C和D中的每一个随机观察67个作为我的训练数据,并将A,B,C和D中的每一个的剩余33个观测值存储为测试数据.我发现了一个与我非常相似的问题,但它没有考虑到多个变量.