dee*_*mel 2 r data-analysis frequency-distribution
我今天的问题是指我正在研究的数据框.数据框的标题如下所示:字符串(唯一),整数N [0-23]
这24个整数值表示与一天中每小时相关联的字符串的频率.从逻辑上讲,每行中的int值总计为字符串在数据中出现的频率.
事实是,我不需要某个小时的字符串的实际频率,而是该频率表示的百分比与所有行中的整数值之和的关系.
我的讲师暗示table()可能是正确的R工具,但老实说我不明白这应该如何帮助我.
如果所有其他方法都失败了,我会用Java计算它 - 虽然我非常感谢你帮助我在R中做到这一点.
感谢您的阅读,并提前感谢您的帮助,
Rickyfox
@@@@@@我是你的编辑,请看我@@@@@@
在詹姆斯的帮助下,我得到了以下的可预测性
事实上,每行的百分比总计为100,但它们应该对整个表格这样做.有没有办法做到这一点?
使用prop.table一个matrix包含值:
x <- data.frame(id=letters[1:3],val0=1:3,val1=4:6,val2=7:9)
prop.table(as.matrix(x[-1]),margin=1)
val0 val1 val2
[1,] 0.08333333 0.3333333 0.5833333
[2,] 0.13333333 0.3333333 0.5333333
[3,] 0.16666667 0.3333333 0.5000000
Run Code Online (Sandbox Code Playgroud)
编辑:一个完整的例子:
tt=read.table("topichitsperhod.csv",sep=",",header=TRUE)
tt=na.omit(tt[-1])
pt=prop.table(tt[-1],margin=NULL)
Run Code Online (Sandbox Code Playgroud)
第一列被遗漏,因为它保留了主题字符串.