小编Rob*_*lly的帖子

如何一次为所有点设置ggplot alpha(透明度)值

library(data.table)
library(ggpolot2)

numPoints <- 10000
dt <- data.table(a=rnorm(numPoints),b=rnorm(numPoints))

qplot(a,b,data=dt, geom="point", alpha=1)
qplot(a,b,data=dt, geom="point", alpha=0.1)
qplot(a,b,data=dt, geom="point", alpha=0.01)
Run Code Online (Sandbox Code Playgroud)

无论我选择的alpha值如何,结果图表似乎都具有相同的透明度.

如何使点更透明(以便区域中点的密度更清晰可见)?

alpha r ggplot2

18
推荐指数
1
解决办法
4万
查看次数

在R中,对于大整数id数字,最好使用integer64,numeric或character吗?

我正在使用一个数据集,该数据集有几个代表整数ID号的列(例如transactionId和accountId).这些ID号通常是12位长,这使得它们太大而无法存储为32位整数.

在这种情况下,最好的方法是什么?

  1. 以字符串形式读取ID.
  2. 使用bit64包将ID读取为整数64.
  3. 将ID作为数字读取(即双倍).

我已被警告过测试与双打相等的危险,但是我不确定在将它们用作ID的情况下是否会出现问题,我可能会根据它们进行合并和过滤,但绝不会对它进行算术运算.身份证号码.

字符串看起来很直观,因为它应该更慢地测试相等性并进行合并,但也许在实践中它并没有太大的区别.

r

14
推荐指数
2
解决办法
7754
查看次数

R是否有任何用于解析URL部分的包?

我有一个网址列表,我想解析和规范化.

我希望能够将每个地址分成几部分,以便我可以将"www.google.com/test/index.asp"和"google.com/somethingelse"标识为来自同一网站.

url parsing r

13
推荐指数
3
解决办法
4380
查看次数

从.net存储10到1亿个模拟输出的最佳方法(SQL与平面文件)

我一直致力于一个项目,该项目产生了大约10到1亿个输出,来自我希望存储以供将来分析的模拟.数据的组织有几个本质级别,例如,教室允许学生参加具有少数不同性能指标的测试.

看起来我的数据是能够同时适应内存的边界线(考虑到模拟的计算需要在内存中进行相当数量的数据来进行计算),但我没有任何直接需要我的程序可以同时使用所有数据.

我正在考虑将计算值输出到SQL数据库或平面文本文件是否更好.我正在寻找关于哪种方法可能更快/更容易维护的建议(或者如果您有另外的建议来存储我对此开放的数据).

我不需要能够与其他任何人共享数据,也不用担心几年后访问数据.我只是需要一种方便的方法来避免每次我想要对值的分析进行调整时重新生成模拟.

.net c# sql

11
推荐指数
1
解决办法
549
查看次数

Sapply(来自R)相当于朱莉娅?

假设我有一个二维数组,我想对它的每一列应用几个函数.理想情况下,我希望以矩阵的形式返回结果(每个函数一行,每个输入列一列).

以下代码生成我想要的值,但是作为数组数组.

A = rand(10,10)
[mapslices(f, A, 1)  for f in [mean median iqr]]
Run Code Online (Sandbox Code Playgroud)

另一个类似的例子在这里[ Julia:使用带有矩阵的pmap

是否有更好的语法将结果以二维数组的形式返回,而不是数组数组?

我真正喜欢的是具有类似于sapplyR 的功能的东西.[ https://stat.ethz.ch/R-manual/R-devel/library/base/html/lapply.html]

julia

8
推荐指数
1
解决办法
604
查看次数

C#循环使用IEnumerable进行计算,该计算使用n个前n个元素和n个后续元素

我发现自己经常处理一个IEnumerable对象,我需要循环执行每个元素的计算,这些元素依赖于前一个和后一个对象的n.

一个常见的例子是计算滚动平均值,但有时计算比这更复杂,并依赖于列表中每个元素的几个字段

我永远不确定构建循环的最佳方法.效率很重要,但可维护性和可读性更重要.

  • 有时我转换为List然后使用for循环来获取元素[i-1],[i],[i + 1],然后执行我的计算.

  • 其他时候我把它保存为IEnumerable,但是我"缓存"前面几个元素,所以我不进行i的计算,直到我在foreach循环中得到[i + 1].

  • 我还考虑使用链表,以便我可以使用.Previous和.Next方法.

有关哪种技术最好使用的建议?

c# ienumerable foreach list

7
推荐指数
2
解决办法
3474
查看次数

在R中的大型数据集上运行回归树

我正在处理大约150万次观测的数据集.我发现在我的数据的一小部分上运行一个回归树(我正在使用包中的mob()*函数party)花费的时间非常长(我不能运行超过50k的一个子集).

我可以想到两个主要问题是减慢计算速度

  1. 使用整个数据集在每个步骤计算拆分.我会对基于数据的随机子集选择变量在每个节点上拆分的结果感到满意,只要它继续补充树中每个子节点处的样本大小即可.
  2. 该操作未并行化.在我看来,只要树首次拆分,它就应该能够使用两个处理器,这样当我的机器中的每个处理器有16个分裂时,它们就会被使用.在实践中,似乎只有一个被使用.

有没有人对替代树实现提出建议,这些实现对大型数据集更有效,或者我可以改变以使计算更快的事情**?

*我正在使用mob(),因为我想在每个节点的底部进行线性回归,根据它们对治疗变量的响应来分割数据.

**似乎减慢计算量的一件事是我有一个16种类型的因子变量.计算要拆分的变量的哪个子集似乎比其他拆分需要更长的时间(因为有很多不同的方法可以对它们进行分组).这个变量是我们认为重要的变量,因此我不愿完全放弃它.是否有推荐的方法在将类型放入树模型之前将其分组为较少数量的值?

parallel-processing regression r large-data cart-analysis

7
推荐指数
1
解决办法
1363
查看次数

如何查看 Julia 包中的方法列表

Julia 中是否有一个命令可以列出包中所有可用的方法?

例如我加载分布

using Distributions
Run Code Online (Sandbox Code Playgroud)

现在我想看看调用什么函数来从正态分布中绘制一个随机值。在没有谷歌搜索的情况下,有没有一种从 Julia 内部做到这一点的好方法?

julia

7
推荐指数
1
解决办法
1773
查看次数

Julia:将1x1数组从内积转换为数字

从内部产品操作中获取数字的最佳方法是什么,而不是1x1数组.有没有比这更好的方法:

([1 2 3]*[4 5 6]')[1]
Run Code Online (Sandbox Code Playgroud)

julia

7
推荐指数
1
解决办法
549
查看次数

朱莉娅的虚拟变量

在R中,对于分类变量的每个级别,使用虚拟变量运行回归具有很好的功能.例如,自动将R因子扩展为每个因子级别的1/0指标变量的集合

在朱莉娅有没有相同的方法来做到这一点.

x = randn(1000)
group = repmat(1:25 , 40)
groupMeans = randn(25)
y = 3*x + groupMeans[group]

data = DataFrame(x=x, y=y, g=group)
for i in levels(group)
    data[parse("I$i")] = data[:g] .== i
end
lm(y~x+I1+I2+I3+I4+I5+I6+I7+I8+I9+I10+
    I11+I12+I13+I14+I15+I16+I17+I18+I19+I20+
    I21+I22+I23+I24, data)
Run Code Online (Sandbox Code Playgroud)

dataframe glm julia

7
推荐指数
1
解决办法
1026
查看次数