小编Ana*_*sid的帖子

Python中t检验的置信区间(均值之间的差异)

我正在寻找一种快速的方法来获得Python中的t检验置信区间,以获得均值之间的差异.与R中的相似:

X1 <- rnorm(n = 10, mean = 50, sd = 10)
X2 <- rnorm(n = 200, mean = 35, sd = 14)
# the scenario is similar to my data

t_res <- t.test(X1, X2, alternative = 'two.sided', var.equal = FALSE)    
t_res
Run Code Online (Sandbox Code Playgroud)

日期:

    Welch Two Sample t-test

data:  X1 and X2
t = 1.6585, df = 10.036, p-value = 0.1281
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.539749 17.355816
sample estimates:
mean …
Run Code Online (Sandbox Code Playgroud)

python statistics hypothesis-test

16
推荐指数
1
解决办法
1万
查看次数

朱莉娅:附加到一个空矢量

我想创建一个空向量并在Julia中附加一个数组.我怎么做?

x = Vector{Float64}
append!(x, rand(10))
Run Code Online (Sandbox Code Playgroud)

结果是

`append!` has no method matching append!(::Type{Array{Float64,1}}, ::Array{Float64,1})
Run Code Online (Sandbox Code Playgroud)

谢谢.

vector julia

15
推荐指数
4
解决办法
2万
查看次数

使用Python与Julia进行线性回归的解析解

使用Andrew Ng的类中的示例(使用正规方程找出线性回归的参数):

使用Python:

X = np.array([[1, 2104, 5, 1, 45], [1, 1416, 3, 2, 40], [1, 1534, 3, 2, 30], [1, 852, 2, 1, 36]])
y = np.array([[460], [232], [315], [178]])
? = ((np.linalg.inv(X.T.dot(X))).dot(X.T)).dot(y)
print(?)
Run Code Online (Sandbox Code Playgroud)

结果:

[[  7.49398438e+02]
 [  1.65405273e-01]
 [ -4.68750000e+00]
 [ -4.79453125e+01]
 [ -5.34570312e+00]]
Run Code Online (Sandbox Code Playgroud)

朱莉娅:

X = [1 2104 5 1 45; 1 1416 3 2 40; 1 1534 3 2 30; 1 852 2 1 36]
y = [460; 232; 315; 178]

? = ((X' * X)^-1) …
Run Code Online (Sandbox Code Playgroud)

python matrix julia

12
推荐指数
2
解决办法
2096
查看次数

使用Bokeh绘制整个pandas DataFrame

我想用Bokeh绘制一个完整的pandas DataFrame.即,我正在寻找第三行的Bokeh等价物:

import pandas as pd
income_df = pd.read_csv("income_2013_dollars.csv", sep='\t', thousands=',')
income_df.plot(x="year")
Run Code Online (Sandbox Code Playgroud)

目前有办法做到这一点,还是我必须分别传递每个y值?

python pandas bokeh

9
推荐指数
1
解决办法
2万
查看次数

Julia:将DataFrame传递给函数会创建一个指向DataFrame的指针吗?

我有一个函数,我在其中规范化DataFrame的前N列.我想返回规范化的DataFrame,但保留原文.然而,似乎该函数也改变了传递的DataFrame!

using DataFrames

function normalize(input_df::DataFrame, cols::Array{Int})
    norm_df = input_df
    for i in cols
        norm_df[i] = (input_df[i] - minimum(input_df[i])) / 
            (maximum(input_df[i]) - minimum(input_df[i]))
    end
    norm_df
end

using RDatasets
iris = dataset("datasets", "iris")
println("original df:\n", head(iris))

norm_df = normalize(iris, [1:4]);
println("should be the same:\n", head(iris))
Run Code Online (Sandbox Code Playgroud)

输出:

original df:
6x5 DataFrame
| Row | SepalLength | SepalWidth | PetalLength | PetalWidth | Species  |
|-----|-------------|------------|-------------|------------|----------|
| 1   | 5.1         | 3.5        | 1.4         | 0.2        | "setosa" |
| 2   | 4.9         | …
Run Code Online (Sandbox Code Playgroud)

normalization dataframe julia

7
推荐指数
1
解决办法
1174
查看次数

将 PATH 添加到 RStudio 的路径

我在 MacOS 上运行 RStudio,需要使用一些自定义命令行工具,例如csvcut(部分csvkit)来实现我们团队中的多个人将在他们的机器上使用的功能。

如果我在终端中从 R运行system('pip install csvcut)(我使用此命令作为示例;通常,我会运行csvcut),它会工作(检查是否已安装最后一个版本等),就像我从命令行终端。

如果我在 RStudio 中做同样的事情:

> system('pip install csvkit')
sh: pip: command not found
Run Code Online (Sandbox Code Playgroud)

如果我which pip在终端中执行并将地址复制粘贴到 RStudio 中,它会起作用:

system('/anaconda3/anaconda/bin/pip install csvkit')
Requirement already satisfied (use --upgrade to upgrade): csvkit in /anaconda3/anaconda/lib/python3.4/site-packages
# etc.
Run Code Online (Sandbox Code Playgroud)

^ 如果我只是system('pipinstall csvkit')在终端中从 R执行,那就是输出。

不幸的是,我什which pip至无法在 RStudio 中运行。(另外,我不能自动pip install csvkit为其他人的机器,因为它需要 sudo 访问权限。)如果有办法将 RStudio 指向 R 的路径,那会更容易。

我在一些网站上找到了说要创建一个.Renviron文件并在其中包含R_LIBS_USER=~/R/library一行的说明,但这没有帮助。

r rstudio

6
推荐指数
1
解决办法
4306
查看次数

来自R的xgboost模型的部分依赖图

是否存在已经存在的函数来从R中的xgboost模型获得部分依赖图?我看到了使用mlr包的例子,但它似乎需要一个mlr特定的包装类.我有点不清楚是否有办法将xgboost模型转换为该类.

r xgboost

6
推荐指数
2
解决办法
3554
查看次数

pandas:如何进行多个groupby-apply操作

我对R有更多的经验data.table,但我正在努力学习pandas.在data.table,我可以做这样的事情:

> head(dt_m)
   event_id           device_id longitude latitude               time_ category
1:  1004583 -100015673884079572        NA       NA 1970-01-01 06:34:52   1 free
2:  1004583 -100015673884079572        NA       NA 1970-01-01 06:34:52   1 free
3:  1004583 -100015673884079572        NA       NA 1970-01-01 06:34:52   1 free
4:  1004583 -100015673884079572        NA       NA 1970-01-01 06:34:52   1 free
5:  1004583 -100015673884079572        NA       NA 1970-01-01 06:34:52   1 free
6:  1004583 -100015673884079572        NA       NA 1970-01-01 06:34:52   1 free
                 app_id is_active
1: -5305696816021977482         0
2: -7164737313972860089         0
3: -8504475857937456387         0 …
Run Code Online (Sandbox Code Playgroud)

python group-by dataframe pandas pandas-groupby

6
推荐指数
1
解决办法
994
查看次数

Julia:用数组中的字符串替换数字

我有一个数字(整数或浮点数)值数组(它实际上是 DataFrame 对象中的一列),并且想将例如所有 0 实例替换为“NaN”或某些文本。(或转换 1-->"M" 和 2-->"F"。)

我遇到的问题是,当我编写时array[i] = "text",出现错误:

`convert` has no method matching convert(::Type{Int64}, ::ASCIIString)
Run Code Online (Sandbox Code Playgroud)

我该如何解决这个问题?另外,做 Pandas 等价的最有效方法是什么df.column.replace({1:"M", 2:"F"}, inplace=True)

我确实尝试过这个:

df[:sex] = [ {1 => "M", 2 => "F"}[i] for i in df[:sex] ]
Run Code Online (Sandbox Code Playgroud)

...但是当我只替换某些值时会遇到问题(然后我收到“找不到键 X”错误,因为我从 [:sex] 传递了一个不在我的字典中的值)。

python arrays replace julia

5
推荐指数
1
解决办法
1350
查看次数

Bokeh:如何将文件另存为 svg?

我想将散景图(来自 IPython 笔记本)作为 svg 文件嵌入到我的博客中。目前有没有办法将绘图保存为 svg?

我试图查看文档,但有点不清楚。

python bokeh

5
推荐指数
1
解决办法
2948
查看次数