相关疑难解决方法(0)

如何判断R中的数据集何时过大?

我将在R中进行一些日志文件分析(除非我不能在R中执行),并且我理解我的数据需要适合RAM(除非我使用某种类型的修复,如关键字存储的接口,也许?).所以我想知道如何提前告诉我的数据将占用多少空间,以及我是否有足够的空间.我知道我有多少RAM(不是很大 - 在XP下3GB),而且我知道我的日志文件最终会有多少行和列,以及col条目应该是什么数据类型(这可能需要检查为它读).

如何将这一点整合到go/nogo决策中以便在R中进行分析?(据推测,R需要能够有一些RAM来进行操作,以及保存数据!)我的即时需求输出是一堆简单的汇总统计数据,频率,意外情况等,所以我可能会写一些解析器/制表器将为我提供短期需要的输出,但我也希望在下一步中使用许多不同的方法来处理这些数据,所以我正在研究使用R的可行性.

我已经在R中看到了很多有关R中大型数据集的有用建议,我已阅读并将重读,但现在我想更好地了解如何确定是否应该(a)去那里,(b)去但是我希望不得不做一些额外的事情让它变得易于管理,或者(c)在为时已晚之前逃跑并在其他语言/环境中做些事情(建议欢迎......!).谢谢!

r logfile-analysis bigdata

37
推荐指数
1
解决办法
5839
查看次数

R语言中变量的冲突

我有一个R的脚本,它采用R的其他脚本并以这种方式操作它们,并执行它们的代码.我的脚本使用了一些变量(显然),当其他脚本使用公共变量名时,我就搞得一团糟.我希望我能像胶囊一样执行其他脚本,这样重合的变量不会相互影响.

我一直在阅读有关环境的文章,并进行了大量试验,但我没有发现它们的真正含义.

例:

script1.txt
___________
i=sample(10:20,1)

script2.txt
___________
i=sample(10:20,1) 

myscript.txt
___________
other.script = c("script1.txt", "script2.txt")
for( i in 1:2 ) {
    source(other.script[i])
}
i==2
Run Code Online (Sandbox Code Playgroud)

我希望每个变量"i"在不影响其他变量的情况下履行其职责(特别是myscript中的变量,我不关心其他变量).

scope r

2
推荐指数
2
解决办法
243
查看次数

标签 统计

r ×2

bigdata ×1

logfile-analysis ×1

scope ×1