我正在比较癌症患者和健康人 DNA 中结构断裂的区域。我正在尝试对每个区域的中断次数运行 Kruskal-Wallis 测试 (SciPy Stats),以查看两个分布之间是否存在差异。我不确定 Kruskal - Wallis 的输入应该是数组(文档)还是数组列表(互联网上的其他地方)。
首先,我尝试了一个这样的样本+控制数组:
controls = ['1', '2', '3', '4', '5']
samples = ['10', '20', '30', '40', '50']
n=0
for item in controls:
array_item = np.array([item, samples[n]])
kw_test = stats.mstats.kruskalwallis(array_item)
print(kw_test)
n+=1
Run Code Online (Sandbox Code Playgroud)
这给了我所有项目的以下输出:
(0.0, nan)
Run Code Online (Sandbox Code Playgroud)
我还尝试转换数组中的各个数据点,然后运行 KW 测试。
controls = ['1', '2', '3', '4', '5']
samples = ['10', '20', '30', '40', '50']
n=0
kw_results = []
for item in controls:
array_controls = np.array([item])
array_samples = np.array([samples[n]])
kw_test = stats.mstats.kruskalwallis(array_samples, array_controls)
kw_results.append(kw_test)
n+=1 …Run Code Online (Sandbox Code Playgroud)