我已经在以下格式的CSV文件中收集了一组事务:
{Pierre, lait, oeuf, beurre, pain}
{Paul, mange du pain,jambon, lait}
{Jacques, oeuf, va chez la crémière, pain, voiture}
Run Code Online (Sandbox Code Playgroud)
我打算做一个简单的关联规则分析,但首先我想从每个不属于的事务中排除项目ReferenceSet = {lait, oeuf, beurre, pain}.
因此,在我的示例中,我的结果数据集将是:
{Pierre, lait, oeuf, beurre, pain}
{Paul,lait}
{Jacques, oeuf, pain,}
Run Code Online (Sandbox Code Playgroud)
我确信这很简单,但是我很乐意阅读建议/答案以帮助我.
我从一个名为babies2009的数据集中提取了2个数据集(3个向量计数,名称,性别)
一个是女孩2009,包含所有女孩和其他男孩2009.我想知道男孩和女孩之间有什么相似的名字.
我试过这个
common.names = (boys2009$name %in% girls2009$name)
Run Code Online (Sandbox Code Playgroud)
当我尝试
babies2009[common.names, ] [1:10, ]
Run Code Online (Sandbox Code Playgroud)
我得到的只是女孩名字而不是俗名.
我已经确认这两个数据集确实包含男孩和女孩,分别采取10个样本...
boys2009 [1:10,]
girsl2009 [1:10,]
Run Code Online (Sandbox Code Playgroud)
我还能如何比较2个数据集并确定它们共享的值.谢谢,
我需要一些数据分析方面的帮助.
我有两个数据集(之前和之后),我想知道它们之间的差异有多大.
之前
11330 STAT1
2721 STAT2
52438 STAT3
6124 SUZY
Run Code Online (Sandbox Code Playgroud)
后
17401 STAT1
3462 STAT2
0 STAT3
72 SUZY
Run Code Online (Sandbox Code Playgroud)
试图将它们分组tapply(before$V1, before$V2, FUN=mean).
但是当我试图绘制它时,在x轴上我没有得到组名而是数字.如何绘制这样的应用数据(Y轴上的频率和X轴上的组名称)?
还想问一下R中的正确命令是什么来比较这些数据集,因为我愿意找到它们之间的区别?
编辑
输入($ V1之前)
c(11330L,2721L,52438L,6124L)dput($ V2之前)
结构(1:4,.Label = c("STAT1","STAT2","STAT3","SUZY"),class ="factor")