小编ebr*_*imi的帖子

如何为高维数据集绘制热图？

如果您能让我知道如何为具有大约 150 个特征的大型数据集绘制高分辨率热图，我将不胜感激。

我的代码如下：

XX = pd.read_csv('Financial Distress.csv')

y = np.array(XX['Financial Distress'].values.tolist())
y = np.array([0 if i > -0.50 else 1 for i in y])
XX = XX.iloc[:, 3:87]
df=XX
df["target_var"]=y.tolist()
target_var=["target_var"]

fig, ax = plt.subplots(figsize=(8, 6))
correlation = df.select_dtypes(include=['float64',
                                             'int64']).iloc[:, 1:].corr()
sns.heatmap(correlation, ax=ax, vmax=1, square=True)
plt.xticks(rotation=90)
plt.yticks(rotation=360)
plt.title('Correlation matrix')
plt.tight_layout()
plt.show()
k = df.shape[1]  # number of variables for heatmap
fig, ax = plt.subplots(figsize=(9, 9))
corrmat = df.corr()
# Generate a mask for the upper triangle
mask = np.zeros_like(corrmat, …

Run Code Online (Sandbox Code Playgroud)

data-visualization heatmap python-3.x seaborn

ebr*_*imi

2018 06-25

6
推荐指数

1
解决办法

7716
查看次数

如何为分类特征绘制 Cramer's V 热图？

应该使用 Crammer's V 计算分类变量之间的关联。因此，我找到了以下代码来绘制它，但我不知道他为什么将它绘制为“贡献”，这是一个数字变量？

def cramers_corrected_stat(confusion_matrix):
    """ calculate Cramers V statistic for categorical-categorical association.
        uses correction from Bergsma and Wicher, 
        Journal of the Korean Statistical Society 42 (2013): 323-328
    """
    chi2 = ss.chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    phi2 = chi2/n
    r,k = confusion_matrix.shape
    phi2corr = max(0, phi2 - ((k-1)*(r-1))/(n-1))    
    rcorr = r - ((r-1)**2)/(n-1)
    kcorr = k - ((k-1)**2)/(n-1)
    return np.sqrt(phi2corr / min( (kcorr-1), (rcorr-1)))


cols = ["Party", "Vote", "contrib"]
corrM = np.zeros((len(cols),len(cols)))
# there's probably a nice pandas …

Run Code Online (Sandbox Code Playgroud)

data-visualization heatmap python-3.x categorical-data bokeh

ebr*_*imi

2018 08-15

6
推荐指数

1
解决办法

5694
查看次数

获取python numpy数组的列名

我有一个csv数据文件，其标题指示列名。

xy   wz  hi kq
0    10  5  6
1    2   4  7
2    5   2  6

Run Code Online (Sandbox Code Playgroud)

我跑：

X = np.array(pd.read_csv('gbk_X_1.csv').values)

Run Code Online (Sandbox Code Playgroud)

我想获取列名称：

['xy', 'wz', 'hi', 'kg']

Run Code Online (Sandbox Code Playgroud)

我读了这篇文章，但是解决方案为我提供了None。

python arrays numpy pandas

ebr*_*imi

2017 12-01

5
推荐指数

1
解决办法

7362
查看次数

在 PyTorch 中为批处理中的每个单独样本计算梯度

我正在尝试实现一个版本的差异私有随机梯度下降（例如this），如下所示：

计算大小为 L 的批次中每个点的梯度，然后分别裁剪 L 个梯度中的每一个，然后将它们平均在一起，最后执行（噪声）梯度下降步骤。

在 pytorch 中执行此操作的最佳方法是什么？

最好有一种方法可以同时计算批处理中每个点的梯度：

x # inputs with batch size L
y #true labels
y_output = model(x)
loss = loss_func(y_output,y) #vector of length L
loss.backward() #stores L distinct gradients in each param.grad, magically

Run Code Online (Sandbox Code Playgroud)

但是失败了，分别计算每个梯度，然后在累积之前裁剪范数，但是

x # inputs with batch size L
y #true labels
y_output = model(x)
loss = loss_func(y_output,y) #vector of length L   
for i in range(loss.size()[0]):
    loss[i].backward(retain_graph=True)
    torch.nn.utils.clip_grad_norm(model.parameters(), clip_size)

Run Code Online (Sandbox Code Playgroud)

累积第 i 个梯度，然后剪辑，而不是先剪辑再累积到梯度中。解决此问题的最佳方法是什么？

python gradient-descent pytorch

chi*_*irp

2019 12-15

5
推荐指数

1
解决办法

3589
查看次数

JetBrains PyCharm：路径长度大于 8192 字节

如果您能让我知道如何防止安装时出现以下错误，我将不胜感激JetBrains PyCharm。

Length of PATH is bigger than 8192 bytes.$\r$\nInstaller can not update it

Run Code Online (Sandbox Code Playgroud)

提前致谢。

windows installation jetbrains-ide pycharm

ebr*_*imi

2019 02-06

2
推荐指数

1
解决办法

9535
查看次数

为什么插入到复制数据帧的新列也会添加到原始数据帧中？

您能否告诉我为什么新列c被添加到原始数据框中,即df_old？

df_old = pd.DataFrame({'a': [1, 2], 'b': [3, 4]})
df_new=df_old
df_new['c']=[5,6]
print('Old:')
print(df_old)
print('New:')
print(df_new)

Run Code Online (Sandbox Code Playgroud)

输出:

Run Code Online (Sandbox Code Playgroud)

实际上,我需要保留原始数据帧:

   a  b  
0  1  3  
1  2  4

Run Code Online (Sandbox Code Playgroud)

提前致谢,

dataframe python-3.x pandas

ebr*_*imi

lucky-day

1
推荐指数

1
解决办法

42
查看次数

如何在 Python 中计算相关比或 Eta？

根据这篇文章的回答，

名义变量和区间（“数字”）变量之间最经典的“相关”度量是 Eta，也称为相关比，等于单向方差分析的 R 方根（p 值 =方差分析）。Eta 可以被视为一种对称关联测度，就像相关性一样，因为方差分析的 Eta（名义为独立，数值为因变量）等于多元回归的 Pillai 迹（数值为独立，一组虚拟变量对应于名义上为受抚养人）。

如果您能让我知道如何用 python 计算 Eta，我将不胜感激。

事实上，我有一个包含一些数字和一些名义变量的数据框。

此外，如何为其绘制类似热图的图？

statistics correlation python-3.x pandas categorical-data

ebr*_*imi

2020 06-20

1
推荐指数

1
解决办法

8907
查看次数