小编Dim*_*old的帖子

“任何值”的 PySpark 聚合函数

我有一个带有A字段的 PySpark 数据框,几个B依赖于A( A->B) 的C字段和我想按每个 A 聚合的字段。例如:

A | B | C
----------
A | 1 | 6
A | 1 | 7
B | 2 | 8
B | 2 | 4
Run Code Online (Sandbox Code Playgroud)

我希望按 分组A,呈现任何一个B并在 上运行聚合(比方说SUMC

预期的结果是:

A | B | C
----------
A | 1 | 13
B | 2 | 12
Run Code Online (Sandbox Code Playgroud)

SQL明智我会这样做:

SELECT A, COALESCE(B) as B, SUM(C) as C
FROM …
Run Code Online (Sandbox Code Playgroud)

python coalesce apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
7073
查看次数

不同python环境中的tqdm变化

我正在使用tqdm在 python 中显示进度条的包。

tqdm 还有一个用于 Jupyter 笔记本 ( tqdm_notebook())的小部件,允许一个漂亮的“网络式”进度条。

我的问题是我在code.py文件中有一个 tqdm 进度条,我将它导入到 jupyter notebook 中。

code.py从常规 python 环境(即Ipython, IDLE, shell)运行时,我希望 tqdm 以正常形式运行:

from tqdm import tqdm
a = 0
for i in tqdm(range(2000)):
   a+=i
Run Code Online (Sandbox Code Playgroud)

但是当我导入code.pyJupyter 时,我希望它使用tqdm_notebook()

from tqdm import tqdm_notebook as tqdm
a = 0
for i in tqdm(range(2000)):
   a+=i
Run Code Online (Sandbox Code Playgroud)

如何让python区分环境?

我发现这篇文章建议检查get_ipython().__class__.__name__'ipykernel' in sys.modules 但它没有区分笔记本和其他 Ipython shell(例如在 Spyder 或 IDLE …

python ipython spyder jupyter-notebook tqdm

3
推荐指数
1
解决办法
804
查看次数

在 Jupyter 中内联 Matplotlib - 如何在显示绘图时控制?

我有一个创建图形的函数,由于某种原因,它在 Jupyter notebook 中显示了两次,即使我根本没有运行show。我将 fig 和 ax 作为此函数的输出传递,并计划稍后显示它。

我在plt,figax工作人员之间感到困惑,并猜测答案隐藏在那里。

这是我的代码的匿名版本:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
%matplotlib inline

def plot_curve(dummydata):
    # builds a chart

    fig,ax = plt.subplots(1) # get subplots
    fig.set_figheight(7)
    fig.set_figwidth(12) #set shape

    plt.plot(dummydata.x1, dummydata.y1,label = 'l1') #curve 1
    plt.plot(dummydata.x2, dummydata.y2,label = 'l2') #curve2

    plt.xlabel('xlabel') #labels
    plt.ylabel('xlabel')
    plt.yscale('linear') #scale and bounds
    plt.ylim(0,100)
    ymin,ymax= ax.get_ylim()
    ax.axhline(1, color='k', linestyle=':', label = 'lab1') #guideline …
Run Code Online (Sandbox Code Playgroud)

python matplotlib jupyter-notebook

3
推荐指数
1
解决办法
233
查看次数

Seaborn 热图条件边框

我有一个包含基因名称、倍数变化和 p 值的数据框。

我可以用seaborn.heatmap颜色渐变来绘制折叠变化。

如何在 p 值 < 0.05 的特定单元格周围添加条件边框?

heatmap seaborn

2
推荐指数
1
解决办法
1547
查看次数