我想知道如何将R语言学习为"编程"语言,而不是将其学习为统计系统.我的问题是由于缺乏对诸如解析,评估等功能的理解而引起的,这些功能可能不会被具有"统计"说服力的R用户频繁使用.
编辑:我一直在探索像Rpy RSPerl rJava这样的工具,并希望(至少)能够理解促进R与其他编程语言通信的概念.
R(R-PHP,RApache等)的Web应用程序的可用性是我获得对R更深入,更结构化理解的另一个动机因素.
最后但并非最不重要,我希望能够编写R包,如果没有必要,这样的理解将是有益的.
数据科学家的武器库中有哪些相关技能?随着每天都有新技术的出现,人们如何挑选必需品?
与此讨论密切相关的一些想法:
思考?
我发现这种行为很奇怪,希望更有经验的用户分享他们的想法和解决方法.在R中运行下面的代码示例时:
sampleList <- list()
d<- data.frame(x1 = letters[1:10], x2 = 1:10, stringsAsFactors = FALSE)
for(i in 1:nrow(d)) {
sampleList[[i]] <- d$x1[i]
}
print(sampleList[[1]])
#[1] "a"
print(sampleList[[2]])
#[1] "b"
print(sampleList[[3]])
#[1] "c"
print(length(sampleList))
#[1] 10
sampleList[[2]] <- NULL
print(length(sampleList))
#[1] 9
print(sampleList[[2]])
#[1] "c"
print(sampleList[[3]])
#[1] "d"
Run Code Online (Sandbox Code Playgroud)
列表元素向上移动.也许这是预期的,但我正在尝试实现一个函数,我合并列表中的两个元素并删除一个.我基本上想要丢失该列表索引或将其作为NULL.
有什么办法我可以为它分配NULL而没有看到上述行为?
谢谢你的建议.
我想创建一个本地R包存储库,以便我公司的用户可以从中安装包,系统管理员可以定期更新本地存储库.目前拒绝访问CRAN镜像.
有一个简单的方法吗?
我一直是R的长期用户,最近开始使用Python.使用传统的RDBMS系统进行数据仓库,使用R/Python进行数字运算,我觉得现在需要掌握大数据分析.
我想知道如何开始大数据处理. - 如何从Map/Reduce和Hadoop的使用开始简单
总而言之,我想知道如何从小规模开始,逐步建立我在大数据分析中的技能和专业知识.
感谢您的建议和意见.我为此查询的通用性质道歉,但我希望获得有关此主题的更多观点.
我想知道如何在R中执行图像分析.我的目标是将图像转换为矩阵(像素信息),提取/量化颜色,估计形状的存在并根据这些指标/模式比较图像.
我知道Python中提供的相关软件包(也欢迎与Python相关的建议),但我希望在R中完成这些任务.
感谢您的反馈意见.
-苛刻
我看到了"编程的艺术"一书的编辑评论,并发现了这一点
R编程的艺术带您了解R的软件开发,从基本类型和数据结构到高级主题,如闭包,递归和匿名函数
我立即对匿名函数的想法着迷,这是我在Python中以lambda函数的形式遇到的但是无法在R语言中建立连接.
我在R手册中搜索并找到了这个
通常将函数分配给符号,但它们不需要.调用函数返回的值是一个函数.如果没有给出名称,则将其称为匿名函数.匿名函数最常用作其他函数的参数,例如apply family或outer.
对于像我这样不太长时间的程序员而言,这些事情以一种非常有趣的方式"古怪".哪里可以找到更多这些R(无需购买书籍)?
感谢您分享您的建议
我正在开发一个项目,我有很多分析师在R中创建统计模型.他们通常为我提供模型对象(.Rdata文件),并为各种数据集自动执行它们.
我的问题是:
我可以使用数据库并将这些.RData文件保存在那里吗?这样做的任何提示?(我目前将.Rdata文件存储到磁盘并使用数据库存储位置信息)
我从其他分析师那里获得了许多R脚本,他们在创建模型之前已对数据进行了一些预处理.有没有人有使用PMML的经验,无需人工干预即可重复此过程?PMML存储预处理步骤,将建模步骤作为标记标记存储,并在新数据集上重复相同步骤.
感谢您的建议和反馈.
-苛刻
我想通过为每个客户建立一个模型来拍摄Kaggle Dunnhumby的挑战.我想将数据拆分为十个组,并使用Amazon Web服务(AWS)在十个组中并行使用R来构建模型.我遇到的一些相关链接是:
我不明白的是:
如果你能分享建议和提示,指出我正确的方向,我将非常感激.
PS我在AWS上使用免费使用帐户,但在Amazon Linux AMI上从源代码安装R非常困难(由于缺少标题,库和其他依赖项而导致许多错误).
关于我之前的类似SO问题,我尝试在AWS上使用雪/降雪进行并行计算.
我做的是:
sfInit()
函数中,我提供了公共DNS到这样的socketHosts
参数
sfInit(parallel=TRUE,socketHosts =list("ec2-00-00-00-000.compute-1.amazonaws.com"))
Permission denied (publickey)
我有什么遗漏的吗?如果用户可以分享他们在AWS上使用雪的经验,我将非常感激.
非常感谢你的建议.
更新:我只是想更新我发现的具体问题的解决方案:
snowfall
在群集的所有节点上安装的包hostslist <- list("ec2-xxx-xx-xxx-xxx.compute-1.amazonaws.com","ec2-xx-xx-xxx-xxx.compute-1.amazonaws.com")
sfInit(parallel=TRUE, cpus=2, type="SOCK",socketHosts=hostslist)
l <- sfLapply(1:2,function(x)system("ifconfig",intern=T))
lapply(l,function(x)x[2])
sfStop()
parallel-processing r amazon-web-services snowfall starcluster
我希望用Python或R(最好是R)一起破解kafka消费者.使用kafka控制台使用者我可以grep一个字符串并检索相关数据但是在R中适当地解析它时我感到很茫然.
有些kafka客户端可以使用其他语言(例如:PHP,CPP),但从数据分析的角度来看,R中的一个客户端会很有用.
如果这个论坛上的专家R开发人员暗示/建议可以让我在这方面取得进展的资源,那将是很棒的.
Apache Kafka:incubator.apache.org/kafka/
Kafka Consumer Client(s):https://github.com/kafka-dev/kafka/tree/master/clients
有没有一种简单的方法来检查,如果R functions
和packages
有demo()
和example()
方法呢?
当建立一个包,就包需要有这样的必要的对象demo()
,并example()
可以在它被称为?
编辑:在尝试回答这个问题时,我检查了源代码demo()
demo(package = .packages(all.available = TRUE)) # check which packages have demo
Run Code Online (Sandbox Code Playgroud) 我手头有一个问题,我认为群体中相当常见的是R正在采用分析代替SAS.用户希望获得他们已经习惯于SAS的R中的逻辑回归结果.
为此,我能够在R中提出Design包,其中包含许多功能,以提取SAS报告的各种指标.
如果您有关于其他软件包的建议,或者复制某些SAS输出以进行逻辑回归的示例代码,我很高兴听到它们.
一些要求是:
逻辑回归的逐步变量选择
选择因子变量的基准水平
Hosmer-Lemeshow统计数据
一致和不和谐
Tau C统计
谢谢你的建议.
r ×13
python ×3
analysis ×1
apache-kafka ×1
bigdata ×1
database ×1
hadoop ×1
image ×1
list ×1
null ×1
r-package ×1
rdata ×1
regression ×1
snowfall ×1
starcluster ×1