小编bsh*_*ehy的帖子

Pandas Correlation Groupby

假设我有一个类似于下面的数据帧,我如何得到2个特定列之间的相关性,然后按"ID"列分组?我相信Pandas'corr'方法可以找到所有列之间的相关性.如果可能的话,我也想知道如何使用.agg函数(即np.correlate)找到'groupby'相关性.

是)我有的:

ID  Val1    Val2    OtherData   OtherData
A   5       4       x           x
A   4       5       x           x
A   6       6       x           x
B   4       1       x           x
B   8       2       x           x
B   7       9       x           x
C   4       8       x           x
C   5       5       x           x
C   2       1       x           x
Run Code Online (Sandbox Code Playgroud)

我需要的:

ID  Correlation_Val1_Val2
A   0.12
B   0.22
C   0.05
Run Code Online (Sandbox Code Playgroud)

谢谢!

python group-by correlation pandas

20
推荐指数
3
解决办法
2万
查看次数

PyInstaller和Pandas

我有一个相当简单的Python模块,我试图编译成Windows .exe文件.在我的脚本中,我使用的是wxPython和Pandas库.生成的PyInstaller .exe文件在从我的模块中排除Pandas库时才能工作/打开.

无论是使用--onefile还是--onedirPyInstaller,我都遇到了同样的问题.我在网上发现PyInstaller(2.1)的"新"版本应该处理这个bug.有没有人对如何做有任何想法?

PyInstaller: version 2.1
pandas: version 0.15.2
Python: version 2.7
Run Code Online (Sandbox Code Playgroud)

python pyinstaller pandas

17
推荐指数
3
解决办法
2万
查看次数

Pandas 中与 Groupby 的滚动关联

假设我有一个类似于下面的 Pandas 数据框,我如何获得 2 个特定列和按“ID”列分组之间的滚动相关性(本例中为 2 天)?我熟悉 Pandas roll_corr() 函数,但我不知道如何将其与 groupby() 子句结合起来。

我拥有的:

ID  Date    Val1    Val2
A   1-Jan   45      22
A   2-Jan   15      66
A   3-Jan   55      13
B   1-Jan   41      12
B   2-Jan   87      45
B   3-Jan   82      66
C   1-Jan   33      34
C   2-Jan   15      67
C   3-Jan   46      22
Run Code Online (Sandbox Code Playgroud)

我需要的:

ID  Date    Val1    Val2    Rolling_Corr
A   1-Jan   45      22  
A   2-Jan   15      66      0.1
A   3-Jan   55      13      0.16
B   1-Jan   41      12  
B   2-Jan   87 …
Run Code Online (Sandbox Code Playgroud)

python group-by correlation pandas

5
推荐指数
1
解决办法
5994
查看次数

使用textract的Python pdftotext ShellError

当我在包含PDF文件的目录上运行以下Python脚本时,始终出现此错误:

ShellError:命令pdftotext "path/to/pdf/title.pdf" -失败,退出代码为1 ------------- stdout ------------- ------------- stderr -------------'pdftotext'不被识别为内部或外部命令,可操作程序或批处理文件。

我已验证pdf2text和PDFMiner是否已正确安装。这是我第一次使用textract,它在所有其他文件类型(Word文档,PowerPoint文档,Excel文档等)上都可以很好地工作。为什么在实际库pdftotext何时调用该进程pdf2text

import os
import os.path
import textract

pdf_path = 'path/to/pdf/'

for fname in os.listdir(pdf_path):
    if os.path.isfile(pdf_path+fname ):
        f = textract.process(pdf_path+fname )
        if 'string' in f:
            print fname
Run Code Online (Sandbox Code Playgroud)

谢谢!

python pdf text-extraction

5
推荐指数
1
解决办法
5438
查看次数

组合图表中的 xlsxwriter 标记

我正在尝试将标记添加到我在 xlsxwriter for Python 中创建的组合图表中。组合折线图和柱形图后,我想在 Val_1 = Val_2 的点上放置一个圆形标记。我不知道如何在 xlsxwriter 中执行此操作。不过,我可以在 Excel 中做到这一点:

数据:

 Date   Val_1   Val_2   Flag
 1-Jan  100      50     #N/A
 2-Jan  150      250    #N/A
 3-Jan  125      100    #N/A
 4-Jan  110      110    110
 5-Jan  170      225    #N/A
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

合并图表后,我尝试“.add_series”,但我的图表不显示任何标记。我感觉这与组合图表有关。有人有一个如何做到这一点的例子吗?

谢谢

python xlsxwriter

3
推荐指数
1
解决办法
1642
查看次数