标签: sample-size

执行随机森林时的最小观察次数

是否可以将RandomForests应用于非常小的数据集？我有一个包含许多变量的数据集,但每个只有25个观察值.随机森林产生合理的结果,低OOB误差(10-25%).关于使用的最小观测数量是否有任何经验法则？事实上,其中一个响应变量是不平衡的,如果我要对它进行二次采样,我最终会得到更少的观察结果.提前致谢

machine-learning random-forest sample-size

Ori*_*pus

lucky-day

9
推荐指数

1
解决办法

1万
查看次数

r中的样本大小和功率计算是SAS中可行的替代功能吗？

所以我试图看看样本大小计算(对于样本大小不等的两个样本独立比例)在SAS中的proc功率和r中的一些样本大小函数之间有多接近.我正在使用加州大学洛杉矶分校网站上的数据.

加州大学洛杉矶分校的网站提供如下参数:

p1 = .3,p2 = .15,功率= .8,零差值= 0,对于双侧测试,假设样本量相等;

对于不相等的样本大小测试,参数是相同的,组1的组权重为1,组2的组权重为2,它们执行的测试是单侧的.

我正在使用r函数

pwr.t.test(n=NULL,d=0,sig.level=0.05,type="two.sample",alternative="two.sided")

Run Code Online (Sandbox Code Playgroud)

从pwr包中.

因此,如果我输入参数选择作为UCLA网站的第一个示例,我会收到以下错误:

Error in uniroot(function(n) eval(p.body) - power, c(2, 1e+07)) :
  f() values at end points not of opposite sign.

Run Code Online (Sandbox Code Playgroud)

这似乎是因为r无法检测到差异.我设置d = .5然后就跑了.SAS会因为太小的差异而给出错误吗？它不在示例中,因为它们的零差也是零.

我在使用时也会收到上述错误

pwr.2p.test(h = 0, n = , sig.level =.05, power = .8)

Run Code Online (Sandbox Code Playgroud)

和

pwr.chisq.test(w =0, N = , df =1 , sig.level =.05, power =.8 ).

Run Code Online (Sandbox Code Playgroud)

我可能正在做一些可怕的错误,但如果假设差异为0,我似乎无法找到一种方法.

我知道SAS和r正在使用不同的方法来计算功率,所以我不应该期望得到相同的结果.我真的只是想看看我是否可以在r中复制proc power结果.

我已经能够得到几乎相同的结果,第一个例子具有相同的样本大小和使用的双面替代方案

 bsamsize(p1=.30,p2=.15,fraction=.5, alpha=.05, power=.8)

Run Code Online (Sandbox Code Playgroud)

从Hmisc包中.但是当他们进行不同样本量的单侧测试时,我无法复制这些测试.

有没有办法在r中复制过程,以便针对不相等的组大小进行单侧样本大小计算？

干杯.

r sample sas hmisc sample-size

use*_*008

2013 03-14

6
推荐指数

1
解决办法

6792
查看次数

如何计算（统计）幂函数与python中的样本大小？

这怎么能在python中完成？

计算给定功率和 alpha 的样本大小？
计算给定样本量和 alpha 的功效？

注意： 我完全困惑:(python 为（统计）幂函数计算提供的函数。

有人可以帮我在这里下订单吗？

statsmodels下有两个函数：

from statsmodels.stats.power import ttest_power, tt_ind_solve_power()

Run Code Online (Sandbox Code Playgroud)

我们有：

tt_ind_solve_power(effect_size=effect_size, alpha=alpha, power=0.8, ratio=1, alternative='two-sided')

Run Code Online (Sandbox Code Playgroud)

我们还有：

ttest_power(0.2, nobs=sampleSize, alpha=alpha, alternative='two-sided')

Run Code Online (Sandbox Code Playgroud)

还有这样一段代码：

import statsmodels.stats.api as sms
es = sms.proportion_effectsize(prop1, prop2, method='normal')
n = sms.NormalIndPower().solve_power(es, power=0.9, alpha=0.05, ratio=2)

Run Code Online (Sandbox Code Playgroud)

我在某处找到了这个例子，但它没有解释什么是 prop1 和 prop2！

每一个都给了我不同的价值观。

谢谢

python statistics sample-size t-test

Sam*_*mar

2017 11-16

5
推荐指数

1
解决办法

8274
查看次数

是否有一种使用Python Matplotlib在分组箱图上显示样本大小的好方法

我可以使用groupby获取大小信息并将文本添加到相应的位置.但我不禁想到有更好的方法,因为这看起来很平凡,很多人都希望看到......

为了说明,以下代码将生成分组的boxplot

import pandas as pd
df = pd.DataFrame(rand(100, 1), columns=['value'])
df.ix[:23, 'class']='A'
df.ix[24:, 'class']='B'
df.boxplot(column='value', by='class')

Run Code Online (Sandbox Code Playgroud)

箱形图我想要的是显示每个A类和B类的样本大小,分别为24和76.它可能看起来像传说或在盒子附近的某个地方,或者对我来说是好的.