小编Jan*_*egt的帖子

结合PyCharm,Spark和Jupyter

在当前设置中,我使用具有配置文件的Jupyter笔记本服务器pyspark来使用Spark.一切都很好.然而,我正在做一个非常大的项目,笔记本环境对我来说有点缺乏.我发现PyCharm允许您在IDE中运行笔记本,与Jupyter相比,它为您提供了完整IDE的更多优势.

在最好的情况下,我会在本地运行PyCharm而不是网关上的远程桌面,但使用网关将是一个可接受的替代方案.

我首先尝试让它在网关上工作.如果我的(spark)Jupyter服务器正在运行,IP地址设置正确127.0.0.1:8888并且我创建了一个.ipynb文件,在我输入一行并按回车(不运行它,只需添加换行符)后,我在终端中收到以下错误pycharm来自:

ERROR - pplication.impl.LaterInvocator - Not a stub type: Py:IPNB_TARGET in class org.jetbrains.plugins.ipnb.psi.IpnbPyTargetExpression
Run Code Online (Sandbox Code Playgroud)

谷歌搜索不会让我到任何地方.

pycharm apache-spark pyspark jupyter

7
推荐指数
1
解决办法
1266
查看次数

禁用/尚未实现 Swagger 中的端点

我使用 Swagger 作为我的 API 的文档,以便其他人可以使用它来构建依赖于此的其他服务。我仍然想在 UI 上显示尚未实现的端点,以便其他人可以看到输入和输出的预期格式,但是我也想指出它们尚不可用。try it out例如,有没有办法禁用该功能?

swagger swagger-ui openapi

7
推荐指数
1
解决办法
1334
查看次数

将除法除以n numpy

我通过矩阵逐点除法做矩阵但是除数矩阵中有一些零.这导致警告和一些NaN.我希望这些映射到0,我可以这样做:

edge_map = (xy/(x_norm*y_norm))
edge_map[np.isnan(edge_map)] = 0
Run Code Online (Sandbox Code Playgroud)

然而,这有两个问题,首先它仍然发出警告(我不喜欢警告),其次这需要第二次通过矩阵(不确定这是否是不可避免的)并且效率非常重要这部分代码.想法?

python performance numpy matrix

6
推荐指数
1
解决办法
722
查看次数

在移动窗口numpy数组上有效地应用函数

我有大约100,000个二维数组,我需要应用本地过滤器.两个尺寸均匀,窗口超过2x2,进一步移动2个,因此每个元素都在一个窗口中.输出是相同大小的二进制二维数组,我的过滤器也是二进制2x2.我的过滤器的0部分将映射到0,我的过滤器的部分为1,如果它们具有相同的值则全部映射到1,如果它们不完全相同则映射到0.这是一个例子:

Filter:  0 1     Array to filter:  1 2 3 2    Output:  0 1 0 0
         1 0                       2 3 3 3             1 0 0 0
Run Code Online (Sandbox Code Playgroud)

当然,我可以使用double for循环来做到这一点,但这是非常低效的,并且必须有更好的方法.我读到这个:在numpy上的二维数组上的矢量化移动窗口但是我不确定我将如何应用于我的情况.

python performance numpy python-2.7

5
推荐指数
1
解决办法
1180
查看次数

条件扩展组聚合pandas

对于一些数据预处理,我有一个巨大的数据框,我需要组内的历史性能。但是,由于它是针对在目标前一周运行的预测模型,因此我无法使用在那一周之间发生的任何数据。每组每天有可变数量的行,这意味着我不能总是通过在扩展函数上使用移位来丢弃最后 7 个值,我必须以某种方式对其之前的行的日期时间进行调整。我可以编写自己的函数来应用于组,但是根据我的经验,这通常很慢(尽管很灵活)。这就是我不以日期为条件而只查看以前的记录的方式:

df.loc[:, 'new_col'] = df_gr['old_col'].apply(lambda x: x.expanding(5).mean().shift(1))
Run Code Online (Sandbox Code Playgroud)

5 表示我想要样本大小至少为 5 或将其放入 NaN。

aggr_mean 的小例子至少在一周前查看 A 组内所有样本的平均值:

group | dt       | value  | aggr_mean
A     | 01-01-16 | 5      | NaN
A     | 03-01-16 | 4      | NaN
A     | 08-01-16 | 12     | 5 (only looks at first row)
A     | 17-01-16 | 11     | 7 (looks at first three rows since all are 
                               at least a week earlier)
Run Code Online (Sandbox Code Playgroud)

python pandas

4
推荐指数
1
解决办法
914
查看次数

根据条件在Numpy数组中选择随机坐标

我使用了convolution2d来生成关于局部模式条件的一些统计数据.为了完整,我正在使用图像,值为0.5是我的'灰色屏幕',我不能在此之前使用蒙版(依赖于其他一些包).我想在我的图像中添加新对象,但它应该至少重叠75%的非灰色屏幕.让我们假设新对象是正方形,我将图像掩盖在灰色屏幕上与其余部分相比,使用填充1s的n矩阵进行2-d卷积,这样我就可以得到灰度像素数的总和.补丁.这一切都有效,所以我有一个矩阵,有合适的位置放置我的新对象.如何从该矩阵中有效地选择一个随机的?

这是一个带有5x5图像和2x2卷积矩阵的小例子,我想在我的最后一个矩阵中有一个随机坐标1(因为该补丁中最多有1个0.5)

图片:

1    0.5  0.5  0    1
0.5  0.5  0    1    1
0.5  0.5  1    1    0.5
0.5  1    0    0    1
1    1    0    0    1
Run Code Online (Sandbox Code Playgroud)

卷积矩阵:

1    1 
1    1 
Run Code Online (Sandbox Code Playgroud)

复杂的图像:

3    3    1    0
4    2    0    1
3    1    0    1
1    0    0    0
Run Code Online (Sandbox Code Playgroud)

条件为<= 1:

0    0    1    1
0    0    1    1
0    1    1    1
1    1    1    1
Run Code Online (Sandbox Code Playgroud)

如何有效地获得1s的均匀分布坐标?

python numpy

3
推荐指数
1
解决办法
2103
查看次数

冗长的熊猫适用

我正在对大熊猫系列进行相对繁重的应用。有什么办法可以得到一些关于每次调用函数时在函数内部进行打印还有多远的打印反馈?

python pandas

2
推荐指数
1
解决办法
1723
查看次数

如何使用此结构制作高级绘图

我正在尝试制作一个特定的情节来可视化我的数据.它由一个ID和4个值组成,第一个值应该根据值在x轴上移动,第二个和第三个是间隔的开始和结束,第四个值只是一个值的一部分数据点的位置应该与其他点对齐.我用油漆画了一张照片来展示我想要的东西:

在此输入图像描述

这是相应的数据:

id <- c(1,2,3,4,5,6)
v1 <- c(3,4,3,6,5,1)
v2 <- c(5,6,6,9,8,4)
v3 <- c(10,12,12,15,12,13)
v4 <- c(1,2,1,1,4,3)
df <- data.frame(id,v1,v2,v3,v4)

  id v1 v2 v3 v4
1  1  3  5 10  1
2  2  4  6 12  2
3  3  3  6 12  1
4  4  6  9 15  1
5  5  5  8 12  4
6  6  1  4 13  3
Run Code Online (Sandbox Code Playgroud)

我和ggplot2很熟悉,间隔看起来像置信区间,所以也许我可以做点什么呢?非常感谢!

r ggplot2

1
推荐指数
1
解决办法
180
查看次数