小编Blu*_*eet的帖子

熊猫:在每组中按平均值填充缺失值

这应该是直截了当的,但我发现的最接近的是这篇文章: 熊猫:填写组内的缺失值,我仍然无法解决我的问题....

假设我有以下数据帧

df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']})

  name  value
0    A      1
1    A    NaN
2    B    NaN
3    B      2
4    B      3
5    B      1
6    C      3
7    C    NaN
8    C      3

Run Code Online (Sandbox Code Playgroud)

并且我想在每个"名称"组中填写"NaN",其中包含平均值

      name  value
0    A      1
1    A      1
2    B      2
3    B      2
4    B      3
5    B      1
6    C      3
7    C      3
8    C      3

Run Code Online (Sandbox Code Playgroud)

我不确定去哪里: …

python pandas imputation fillna pandas-groupby

Blu*_*eet

2019 11-28

57
推荐指数

6
解决办法

4万
查看次数

RStudio:我可以弹出源窗格吗？

我有一个双显示器,我希望我可以弹出"源窗格"(我编辑我的代码),以便我可以在一个监视器中编辑代码并跟踪另一个监视器中的所有其他内容.

有谁知道这是否可能？非常感谢您的帮助.

rstudio

Blu*_*eet

lucky-day

17
推荐指数

2
解决办法

6540
查看次数

使用R中的main函数

我已经使用R 4个月了,我真的希望有一种方法可以像其他语言一样使用"main"函数:C++,python ......

我想要的主要原因是我在R脚本中使用的所有变量都是全局变量,可能会污染我在同一个脚本中定义的任何函数,如下所示:

f <- function(x) {
  x + a
}
a <- 50
f(5)

Run Code Online (Sandbox Code Playgroud)

对我来说,这只是个人偏好.我是一个邋program的程序员,我想防止自己犯下愚蠢的错误.

我当然可以定义main < - function(){},但是有类似的东西

if __name__ == "__main__": 
    main()

Run Code Online (Sandbox Code Playgroud)

在python？所以我可以轻松运行脚本？(上面的代码表示:在这个脚本中,如果函数名是"main",则运行"main()",即调用main函数)

Blu*_*eet

2015 10-29

11
推荐指数

2
解决办法

7369
查看次数

scikit-learn roc_curve:为什么它会在一段时间内返回一个阈值= 2？

如果我错了,请纠正我:scikit-learn的roc_curve返回的"阈值"应该是[0,1]中的数字数组.但是,它有时会给我一个第一个数字接近"2"的数组.这是一个错误还是我做错了？谢谢.

In [1]: import numpy as np

In [2]: from sklearn.metrics import roc_curve

In [3]: np.random.seed(11)

In [4]: aa = np.random.choice([True, False],100)

In [5]: bb = np.random.uniform(0,1,100)

In [6]: fpr,tpr,thresholds = roc_curve(aa,bb)

In [7]: thresholds
Out[7]: 
array([ 1.97396826,  0.97396826,  0.9711752 ,  0.95996265,  0.95744405,
    0.94983331,  0.93290463,  0.93241372,  0.93214862,  0.93076592,
    0.92960511,  0.92245024,  0.91179548,  0.91112166,  0.87529458,
    0.84493853,  0.84068543,  0.83303741,  0.82565223,  0.81096657,
    0.80656679,  0.79387241,  0.77054807,  0.76763223,  0.7644911 ,
    0.75964947,  0.73995152,  0.73825262,  0.73466772,  0.73421299,
    0.73282534,  0.72391126,  0.71296292,  0.70930102,  0.70116428,
    0.69606617,  0.65869235,  0.65670881,  0.65261474,  0.6487222 , …

Run Code Online (Sandbox Code Playgroud)

roc scikit-learn

Blu*_*eet

2014 04-21

9
推荐指数

3
解决办法

3154
查看次数

ggmap:使用开放街道地图作为源时出错

我是R的新手,我正在关注这篇文章来学习ggmap.

qmap("Forbidden city",zoom=15)
qmap("Forbidden city",zoom=15, source="osm")

Run Code Online (Sandbox Code Playgroud)

虽然上面的第一个命令工作正常,但第二个命令给我一个错误信息:

来自网址的地图:http: //maps.googleapis.com/maps/api/staticmap？centre = Forbidden+city&zoom = 15&size =%20640x640&maptype = terrain&sensor = false Google Maps API服务条款:http://developers.google. com/maps/terms 网址中的信息:http ://maps.googleapis.com/maps/api/geocode/json？address = Forbidden+city&sensor = false Google Maps API服务条款:http://developers.google.com/maps/terms 错误:地图抓取失败 - 请参阅？get_openstreetmap中的详细信息.另外:警告信息:在download.file(url,destfile = destfile,quiet =!messaging,mode ="wb"):无法打开:HTTP状态为'503 Service Unavailable'

任何帮助表示赞赏.

r openstreetmap ggmap

Blu*_*eet

2014 05-28

7
推荐指数

1
解决办法

2682
查看次数

R 是否具有类似于 Python、C 中的 main 函数的功能？

我正在寻找一种更好的方式来组织我的 R 代码。理想情况下，我希望

将所有辅助功能放在脚本的末尾。它将帮助我专注于代码的主要部分，而不会被脚本开头的大量辅助函数分心。
允许每个变量只存在于特定范围内。例如，如果我不小心为某些变量赋值，我不希望这些变量被定义在它们之后的函数获取并弄得一团糟。

在 Python 中，这两个目标可以通过以下方式轻松实现：

def main():
...

def helper_func(x,y):
...

if __name__ == '__main__':
    main()

Run Code Online (Sandbox Code Playgroud)

在 R 中可能吗？如果不可能的话，有什么建议可以让它与此类似吗？

Blu*_*eet

lucky-day

5
推荐指数

1
解决办法

1241
查看次数

如何将H2OFrame中的列转换为python列表？

我已经阅读了H2O.ai的PythonBooklet.pdf和python API文档,但仍然找不到干净的方法来做到这一点.我知道我可以做以下任何一种情况:

将H2OFrame转换为Spark DataFrame并执行flatMap+ collect或collect+列表推导.
使用H2O get_frame_data,它给我一串标题和数据分隔\n; 然后将其转换为列表(在我的情况下为数字列表).

有一个更好的方法吗？谢谢.

apache-spark h2o spark-dataframe

Blu*_*eet

2017 04-04

5
推荐指数

1
解决办法

4176
查看次数

R：计算2个因子向量的不同值的数量

我有两个长度相同的向量-都是因数。我想逐个位置比较它们，看看有多少不同。例如

> a = as.factor(c(1,2,2,1,2,2,1))
> b = as.factor(c(1,2,1,1,1,2,1))

Run Code Online (Sandbox Code Playgroud)

由于位置3和位置5有两个不同的值，因此我希望得到2作为最终结果。我知道我可以将它们转换为数字并进行减法运算，但是如果值是字符串怎么办，例如

a = as.factor(c("a","a","b"))
b = as.factor(c("a","b","b"))

Run Code Online (Sandbox Code Playgroud)

是否有任何优雅，通用的方式来做到这一点？

Blu*_*eet

2015 08-27

0
推荐指数

1
解决办法

421
查看次数

标签统计

r ×4

apache-spark ×1

fillna ×1

ggmap ×1

h2o ×1

imputation ×1

openstreetmap ×1

pandas ×1

pandas-groupby ×1

python ×1

roc ×1

rstudio ×1

scikit-learn ×1

spark-dataframe ×1

标签 统计

小编Blu_eet的帖子

标签统计