小编Ken*_*HBS的帖子

意思是 V 值,wilcoxen 符号秩检验

我对 Wilcoxon 签名等级测试的结果有疑问:

我的数据包括使用治疗的两组(配对)试验。结果以%计分。小组由131人组成。

当我在 R 中运行测试时,得到以下结果:

wilcox.test(no.treatment, with.treatment, paired=T) 
# Wilcoxon signed rank test with continuity correction 
# data:  no.treatment and with.treatment V = 3832, p-value = 0.7958
# alternative hypothesis: true location shift is not equal to 0
Run Code Online (Sandbox Code Playgroud)

我想知道这个V值是什么意思。我在某处读到它与正分数(?)的数量有关,但我想知道它是否可以告诉我有关数据和解释的任何信息?

statistics

4
推荐指数
2
解决办法
8966
查看次数

tm 包中的 DocumentTermMatrix 不返回所有单词

我正在使用 R 中的 tm-package 创建一个文档术语矩阵,但是我的语料库中的一些单词在这个过程中丢失了。

我将用一个例子来解释。假设我有这个小语料库

library(tm)
crps <- " more hours to my next class bout to go home and go night night"
crps <- VCorpus(VectorSource(crps))
Run Code Online (Sandbox Code Playgroud)

当我DocumentTermMatrix()从 tm-package 使用时,它将返回以下结果:

dm <- DocumentTermMatrix(crps)
dm_matrix <- as.matrix(dm)
dm_matrix
# Terms
# Docs and bout class home hours more next night
# 1   1    1     1    1     1    1    1     2
Run Code Online (Sandbox Code Playgroud)

然而,我想要的(和期望的)是:

# Docs and bout class home hours more next night my  go to
#  1   1    1     1 …
Run Code Online (Sandbox Code Playgroud)

r text-mining tm

3
推荐指数
1
解决办法
1310
查看次数

F#按元素求和两个序列

我正在寻找一种方法来按F#中的元素求和两个序列.

例如,如果我有这两个序列:

let first = seq [ 183.24; 170.15;174.17]
let second = seq [25.524;24.069;24.5]
Run Code Online (Sandbox Code Playgroud)

我想得到以下结果:

third list = [208.764;194.219;198.67]
Run Code Online (Sandbox Code Playgroud)

实现这一目标的最简单或最好的方法是什么?

f#

3
推荐指数
2
解决办法
214
查看次数

R中二维核密度估计的混淆

核密度估计器用于估计特定的概率密度函数(请参阅mvstat.netsckit-learn docs以获取参考)

我的困惑是关于究竟做了kde2d()什么?它是否估计了下面例子中两个随机变量f(a,b)的联合分布概率密度函数?颜色是什么意思?

这是我所指的代码示例.

b <- log10(rgamma(1000, 6, 3))
a <- log10((rweibull(1000, 8, 2)))
density <- kde2d(a, b, n=100)

colour_flow <- colorRampPalette(c('white', 'blue', 'yellow', 'red', 'darkred'))
filled.contour(density, color.palette=colour_flow)
Run Code Online (Sandbox Code Playgroud)

statistics r kernel-density scikit-learn probability-density

1
推荐指数
1
解决办法
1171
查看次数

贝叶的规则 - 如何计算可能性

给定的是一些数据,data它对应于硬币翻转的二进制序列,其中头部为1,尾部为0.θ是介于0和1之间的值,表示硬币在翻转时产生头部的概率.

如何计算可能性?我依稀记得一个公式,其中:

likelihood = (theta)^(h)*(1-theta)^(1-h) 
Run Code Online (Sandbox Code Playgroud)

其中h如果是头部则为1,如果是尾部则为0.我实现了以下代码:

import numpy as np
(np.prod([theta*1 for i in data if i==1]) * np.prod([1-theta for i in data if i==0]))
Run Code Online (Sandbox Code Playgroud)

这段代码适用于某些情况,但不适用于某些隐藏的情况(所以我不确定它有什么问题).

python statistics numpy probability bayesian

1
推荐指数
1
解决办法
1003
查看次数

如何绘制时间序列中事件的频率?

我有一个包含日期和质量虚拟值(0 或 1)的数据框:

      unixTimestamp         date     quality
 0       1370131200   06 2, 2013           1
 1       1290643200  11 25, 2010           1
 2       1283990400   09 9, 2010           1
 3       1290556800  11 24, 2010           1
 4       1317254400  09 29, 2011           1
 5       1388707200   01 3, 2014           1
 6       1398556800  04 27, 2014           1
 7       1399161600   05 4, 2014           0
 8       1405036800  07 11, 2014           1
 9       1390176000  01 20, 2014           1
 10      1397606400  04 16, 2014           1
Run Code Online (Sandbox Code Playgroud)

我想做的:绘制随着quality时间的推移“是”(1) 的频率。

我尝试过:绘制这样的直方图:

plt.hist(x=df.loc[df['quality'] == 1].unixTimestamp, …
Run Code Online (Sandbox Code Playgroud)

python time-series matplotlib python-3.x pandas

1
推荐指数
1
解决办法
4855
查看次数

如何从数据框中简单地提取许多重复行

如何轻松生成此序列?

c(1,2,1,3,1,4,1,5,1,6,1,7,1,8,1,9,1,10,
   2,3,2,4,2,5,2,6,2,7,2,8,2,9,2,10)
Run Code Online (Sandbox Code Playgroud)

有没有简单的方法来写这个?

r

0
推荐指数
2
解决办法
130
查看次数