我对 Wilcoxon 签名等级测试的结果有疑问:
我的数据包括使用治疗的两组(配对)试验。结果以%计分。小组由131人组成。
当我在 R 中运行测试时,得到以下结果:
wilcox.test(no.treatment, with.treatment, paired=T)
# Wilcoxon signed rank test with continuity correction
# data: no.treatment and with.treatment V = 3832, p-value = 0.7958
# alternative hypothesis: true location shift is not equal to 0
Run Code Online (Sandbox Code Playgroud)
我想知道这个V值是什么意思。我在某处读到它与正分数(?)的数量有关,但我想知道它是否可以告诉我有关数据和解释的任何信息?
我正在使用 R 中的 tm-package 创建一个文档术语矩阵,但是我的语料库中的一些单词在这个过程中丢失了。
我将用一个例子来解释。假设我有这个小语料库
library(tm)
crps <- " more hours to my next class bout to go home and go night night"
crps <- VCorpus(VectorSource(crps))
Run Code Online (Sandbox Code Playgroud)
当我DocumentTermMatrix()从 tm-package 使用时,它将返回以下结果:
dm <- DocumentTermMatrix(crps)
dm_matrix <- as.matrix(dm)
dm_matrix
# Terms
# Docs and bout class home hours more next night
# 1 1 1 1 1 1 1 1 2
Run Code Online (Sandbox Code Playgroud)
然而,我想要的(和期望的)是:
# Docs and bout class home hours more next night my go to
# 1 1 1 1 …Run Code Online (Sandbox Code Playgroud) 我正在寻找一种方法来按F#中的元素求和两个序列.
例如,如果我有这两个序列:
let first = seq [ 183.24; 170.15;174.17]
let second = seq [25.524;24.069;24.5]
Run Code Online (Sandbox Code Playgroud)
我想得到以下结果:
third list = [208.764;194.219;198.67]
Run Code Online (Sandbox Code Playgroud)
实现这一目标的最简单或最好的方法是什么?
核密度估计器用于估计特定的概率密度函数(请参阅mvstat.net和sckit-learn docs以获取参考)
我的困惑是关于究竟做了kde2d()什么?它是否估计了下面例子中两个随机变量f(a,b)的联合分布概率密度函数?颜色是什么意思?
这是我所指的代码示例.
b <- log10(rgamma(1000, 6, 3))
a <- log10((rweibull(1000, 8, 2)))
density <- kde2d(a, b, n=100)
colour_flow <- colorRampPalette(c('white', 'blue', 'yellow', 'red', 'darkred'))
filled.contour(density, color.palette=colour_flow)
Run Code Online (Sandbox Code Playgroud) statistics r kernel-density scikit-learn probability-density
给定的是一些数据,data它对应于硬币翻转的二进制序列,其中头部为1,尾部为0.θ是介于0和1之间的值,表示硬币在翻转时产生头部的概率.
如何计算可能性?我依稀记得一个公式,其中:
likelihood = (theta)^(h)*(1-theta)^(1-h)
Run Code Online (Sandbox Code Playgroud)
其中h如果是头部则为1,如果是尾部则为0.我实现了以下代码:
import numpy as np
(np.prod([theta*1 for i in data if i==1]) * np.prod([1-theta for i in data if i==0]))
Run Code Online (Sandbox Code Playgroud)
这段代码适用于某些情况,但不适用于某些隐藏的情况(所以我不确定它有什么问题).
我有一个包含日期和质量虚拟值(0 或 1)的数据框:
unixTimestamp date quality
0 1370131200 06 2, 2013 1
1 1290643200 11 25, 2010 1
2 1283990400 09 9, 2010 1
3 1290556800 11 24, 2010 1
4 1317254400 09 29, 2011 1
5 1388707200 01 3, 2014 1
6 1398556800 04 27, 2014 1
7 1399161600 05 4, 2014 0
8 1405036800 07 11, 2014 1
9 1390176000 01 20, 2014 1
10 1397606400 04 16, 2014 1
Run Code Online (Sandbox Code Playgroud)
我想做的:绘制随着quality时间的推移“是”(1) 的频率。
我尝试过:绘制这样的直方图:
plt.hist(x=df.loc[df['quality'] == 1].unixTimestamp, …Run Code Online (Sandbox Code Playgroud) 如何轻松生成此序列?
c(1,2,1,3,1,4,1,5,1,6,1,7,1,8,1,9,1,10,
2,3,2,4,2,5,2,6,2,7,2,8,2,9,2,10)
Run Code Online (Sandbox Code Playgroud)
有没有简单的方法来写这个?
r ×3
statistics ×3
python ×2
bayesian ×1
f# ×1
matplotlib ×1
numpy ×1
pandas ×1
probability ×1
python-3.x ×1
scikit-learn ×1
text-mining ×1
time-series ×1
tm ×1