小编har*_*hal的帖子

如何学习R作为编程语言？

我想知道如何将R语言学习为"编程"语言,而不是将其学习为统计系统.我的问题是由于缺乏对诸如解析,评估等功能的理解而引起的,这些功能可能不会被具有"统计"说服力的R用户频繁使用.

编辑:我一直在探索像Rpy RSPerl rJava这样的工具,并希望(至少)能够理解促进R与其他编程语言通信的概念.

R(R-PHP,RApache等)的Web应用程序的可用性是我获得对R更深入,更结构化理解的另一个动机因素.

最后但并非最不重要,我希望能够编写R包,如果没有必要,这样的理解将是有益的.

har*_*hal

2019 04-20

104
推荐指数

4
解决办法

9万
查看次数

数据科学家的基本技能

数据科学家的武器库中有哪些相关技能？随着每天都有新技术的出现,人们如何挑选必需品？

与此讨论密切相关的一些想法:

知道SQL和使用MySQL之类的数据库,PostgreSQL在NoSql和非关系数据库出现之前是很好的.MongoDB,CouchDB等越来越受欢迎,可以处理网络规模的数据.
知道像R这样的统计工具足以进行分析,但是要创建应用程序,可能需要将Java,Python和其他类似工具添加到列表中.
数据现在以文本,网址,多媒体的形式出现,仅举几例,并且有与其操作相关的不同范例.
那么集群计算,并行计算,云,Amazon EC2,Hadoop呢？
OLS回归现在有人工神经网络,随机森林和其他相对奇特的机器学习/数据挖掘算法.对于公司

思考？

har*_*hal

2015 11-06

57
推荐指数

5
解决办法

2万
查看次数

为R中的列表元素分配NULL？

我发现这种行为很奇怪,希望更有经验的用户分享他们的想法和解决方法.在R中运行下面的代码示例时:

sampleList <- list()
d<- data.frame(x1 = letters[1:10], x2 = 1:10, stringsAsFactors = FALSE)
for(i in 1:nrow(d)) {
        sampleList[[i]] <- d$x1[i]
}

print(sampleList[[1]])
#[1] "a"
print(sampleList[[2]])
#[1] "b"
print(sampleList[[3]])
#[1] "c"
print(length(sampleList))
#[1] 10

sampleList[[2]] <- NULL
print(length(sampleList))
#[1] 9
print(sampleList[[2]])
#[1] "c"
print(sampleList[[3]])
#[1] "d"

Run Code Online (Sandbox Code Playgroud)

列表元素向上移动.也许这是预期的,但我正在尝试实现一个函数,我合并列表中的两个元素并删除一个.我基本上想要丢失该列表索引或将其作为NULL.

有什么办法我可以为它分配NULL而没有看到上述行为？

谢谢你的建议.

null r list

har*_*hal

2018 05-03

48
推荐指数

3
解决办法

3万
查看次数

创建本地R包存储库

我想创建一个本地R包存储库,以便我公司的用户可以从中安装包,系统管理员可以定期更新本地存储库.目前拒绝访问CRAN镜像.

有一个简单的方法吗？

r r-package

har*_*hal

2018 04-12

42
推荐指数

2
解决办法

2万
查看次数

如何开始大数据分析

我一直是R的长期用户,最近开始使用Python.使用传统的RDBMS系统进行数据仓库,使用R/Python进行数字运算,我觉得现在需要掌握大数据分析.

我想知道如何开始大数据处理. - 如何从Map/Reduce和Hadoop的使用开始简单

如何利用我在R和Python中的技能来开始大数据分析.以Python Disco项目为例.
使用RHIPE包并查找玩具数据集和问题区域.
找到正确的信息,以便我决定是否需要从RDBMS类型数据库迁移到NoSQL

总而言之,我想知道如何从小规模开始,逐步建立我在大数据分析中的技能和专业知识.

感谢您的建议和意见.我为此查询的通用性质道歉,但我希望获得有关此主题的更多观点.

苛刻

python hadoop r bigdata

har*_*hal

2012 09-26

41
推荐指数

1
解决办法

2万
查看次数

R中的图像分析

我想知道如何在R中执行图像分析.我的目标是将图像转换为矩阵(像素信息),提取/量化颜色,估计形状的存在并根据这些指标/模式比较图像.

我知道Python中提供的相关软件包(也欢迎与Python相关的建议),但我希望在R中完成这些任务.

感谢您的反馈意见.

-苛刻

python analysis r image

har*_*hal

lucky-day

15
推荐指数

2
解决办法

4393
查看次数

R编程的艺术:我还能在哪里找到这些信息？

我看到了"编程的艺术"一书的编辑评论,并发现了这一点

R编程的艺术带您了解R的软件开发,从基本类型和数据结构到高级主题,如闭包,递归和匿名函数

我立即对匿名函数的想法着迷,这是我在Python中以lambda函数的形式遇到的但是无法在R语言中建立连接.

我在R手册中搜索并找到了这个

通常将函数分配给符号,但它们不需要.调用函数返回的值是一个函数.如果没有给出名称,则将其称为匿名函数.匿名函数最常用作其他函数的参数,例如apply family或outer.

对于像我这样不太长时间的程序员而言,这些事情以一种非常有趣的方式"古怪".哪里可以找到更多这些R(无需购买书籍)？

感谢您分享您的建议

har*_*hal

lucky-day

9
推荐指数

2
解决办法

1097
查看次数

将.RData文件序列化到数据库

我正在开发一个项目,我有很多分析师在R中创建统计模型.他们通常为我提供模型对象(.Rdata文件),并为各种数据集自动执行它们.

我的问题是:

我可以使用数据库并将这些.RData文件保存在那里吗？这样做的任何提示？(我目前将.Rdata文件存储到磁盘并使用数据库存储位置信息)
我从其他分析师那里获得了许多R脚本,他们在创建模型之前已对数据进行了一些预处理.有没有人有使用PMML的经验,无需人工干预即可重复此过程？PMML存储预处理步骤,将建模步骤作为标记标记存储,并在新数据集上重复相同步骤.

感谢您的建议和反馈.

-苛刻

database r rdata

har*_*hal

2012 05-10

8
推荐指数

1
解决办法

2278
查看次数

使用AWS与R进行并行处理

我想通过为每个客户建立一个模型来拍摄Kaggle Dunnhumby的挑战.我想将数据拆分为十个组,并使用Amazon Web服务(AWS)在十个组中并行使用R来构建模型.我遇到的一些相关链接是:

所述SEGUE包 ;
一个演示使用并行亚马逊网络服务.

我不明白的是:

如何将数据导入十个节点？
如何在节点上发送和执行R功能？

如果你能分享建议和提示,指出我正确的方向,我将非常感激.

PS我在AWS上使用免费使用帐户,但在Amazon Linux AMI上从源代码安装R非常困难(由于缺少标题,库和其他依赖项而导致许多错误).

parallel-processing r amazon-web-services

har*_*hal

2011 08-30

8
推荐指数

2
解决办法

5807
查看次数

使用AWS的雪(和降雪)在R中进行并行处理

关于我之前的类似SO问题,我尝试在AWS上使用雪/降雪进行并行计算.

我做的是:

在sfInit()函数中,我提供了公共DNS到这样的socketHosts参数 sfInit(parallel=TRUE,socketHosts =list("ec2-00-00-00-000.compute-1.amazonaws.com"))
返回的错误是 Permission denied (publickey)
然后我按照'无密码安全外壳(SSH)登录'部分中的http://www.imbi.uni-freiburg.de/parallel/上的说明(我假设正确!)
我只是将我在AWS上创建的.pem文件的内容捕获到我要从我的主AWS实例连接的AWS实例的〜/ .ssh/authorized_keys以及主AWS实例中.

我有什么遗漏的吗？如果用户可以分享他们在AWS上使用雪的经验,我将非常感激.

非常感谢你的建议.

更新:我只是想更新我发现的具体问题的解决方案:

我使用StarCluster来设置我的AWS集群:StarCluster
snowfall在群集的所有节点上安装的包
从主节点发出以下命令
hostslist <- list("ec2-xxx-xx-xxx-xxx.compute-1.amazonaws.com","ec2-xx-xx-xxx-xxx.compute-1.amazonaws.com")
sfInit(parallel=TRUE, cpus=2, type="SOCK",socketHosts=hostslist)
l <- sfLapply(1:2,function(x)system("ifconfig",intern=T))
lapply(l,function(x)x[2])
sfStop()
ip信息确认正在使用AWS节点

parallel-processing r amazon-web-services snowfall starcluster

har*_*hal

2017 05-23

7
推荐指数

1
解决办法

1986
查看次数

R的卡夫卡消费者

我希望用Python或R(最好是R)一起破解kafka消费者.使用kafka控制台使用者我可以grep一个字符串并检索相关数据但是在R中适当地解析它时我感到很茫然.

有些kafka客户端可以使用其他语言(例如:PHP,CPP),但从数据分析的角度来看,R中的一个客户端会很有用.

如果这个论坛上的专家R开发人员暗示/建议可以让我在这方面取得进展的资源,那将是很棒的.

Apache Kafka:incubator.apache.org/kafka/

Kafka Consumer Client(s):https://github.com/kafka-dev/kafka/tree/master/clients

python r apache-kafka

har*_*hal

2012 05-09

7
推荐指数

2
解决办法

2562
查看次数

R demo()和example()方法？

有没有一种简单的方法来检查,如果R functions和packages有demo()和example()方法呢？

当建立一个包,就包需要有这样的必要的对象demo(),并example()可以在它被称为？

编辑:在尝试回答这个问题时,我检查了源代码demo()

demo(package = .packages(all.available = TRUE)) # check which packages have demo

Run Code Online (Sandbox Code Playgroud)

har*_*hal

2016 03-03

6
推荐指数

1
解决办法

5814
查看次数

R中的逻辑回归(类似SAS的输出)

我手头有一个问题,我认为群体中相当常见的是R正在采用分析代替SAS.用户希望获得他们已经习惯于SAS的R中的逻辑回归结果.

为此,我能够在R中提出Design包,其中包含许多功能,以提取SAS报告的各种指标.

如果您有关于其他软件包的建议,或者复制某些SAS输出以进行逻辑回归的示例代码,我很高兴听到它们.

一些要求是:

逻辑回归的逐步变量选择
选择因子变量的基准水平
Hosmer-Lemeshow统计数据
一致和不和谐
Tau C统计

谢谢你的建议.

regression r

har*_*hal

lucky-day

2
推荐指数

1
解决办法

1980
查看次数

标签统计

r ×13

python ×3

amazon-web-services ×2

parallel-processing ×2

analysis ×1

apache-kafka ×1

bigdata ×1

database ×1

hadoop ×1

image ×1

list ×1

null ×1

r-package ×1

rdata ×1

regression ×1

snowfall ×1

starcluster ×1

标签 统计

小编har_hal的帖子

标签统计