小编kpa*_*pax的帖子

使用curve_fit将曲线拟合到幂律分布不起作用

我试图找到一条适合我的数据的曲线,在视觉上似乎具有幂律分布.

在此输入图像描述

我希望利用scipy.optimize.curve_fit,但无论我尝试什么功能或数据规范化,我都会得到RuntimeError(找不到参数或溢出)或者甚至远程不适合我的数据的曲线.请帮我弄清楚我在做错了什么.

%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit

df = pd.DataFrame({
            'x': [ 1000, 3250, 5500, 10000, 32500, 55000, 77500, 100000, 200000 ],
            'y': [ 1100, 500, 288, 200, 113, 67, 52, 44, 5 ]
        })
df.plot(x='x', y='y', kind='line', style='--ro', figsize=(10, 5))

def func_powerlaw(x, m, c, c0):
    return c0 + x**m * c

target_func = func_powerlaw

X = df['x']
y = df['y']

popt, pcov = curve_fit(target_func, X, y) …
Run Code Online (Sandbox Code Playgroud)

python numpy scipy scikit-learn

7
推荐指数
2
解决办法
1万
查看次数

熊猫:条件组特定计算

假设我有一个带密钥的表(例如客户ID)和两个数字列C1和C2.我想按键(客户)对行进行分组,并在其列上运行一些聚合器,如sum和mean.在计算组聚合器之后,我想将结果分配回DataFrame中的每个客户行(因为某些客户范围的功能已添加到每一行).

我可以看到,我可以做一些事情,
df['F1'] = df.groupby(['Key'])['C1'].transform(np.sum)
如果我想只聚合一列,并能够将结果添加回DataFrame.

我可以使它成为条件 - 我可以在一个组中添加C1列,仅用于C2列等于某个数字X的行,并且仍然能够将结果添加回DataFrame吗?

如何在以下行的组合上运行聚合器:
np.sum(C1 + C2)?

实现它的最简单,最优雅的方法是什么?最有效的方法是什么?这些聚合可以在一条路径上完成吗?

先感谢您.

python pandas

5
推荐指数
1
解决办法
4852
查看次数

使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义?

我正在考虑将 Google DataFlow 作为运行管道的选项,该管道涉及以下步骤:

  1. 从网络下载图像;
  2. 处理图像。

我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期,因此我不需要自己启动或停止它们,但我遇到的所有示例都使用它来执行数据挖掘类型的任务。我想知道对于图像处理和爬行等其他批处理任务来说,这是否是一个可行的选择。

amazon-data-pipeline google-cloud-platform google-cloud-dataflow azure-data-factory apache-beam

5
推荐指数
1
解决办法
1950
查看次数

Google DataFlow/Python:在 __main__ 中使用 save_main_session 和自定义模块导入错误

有人可以澄清在使用save_main_session和自定义模块时的预期行为吗__main__?我的 DataFlow 管道导入 2 个非标准模块 - 一个通过requirements.txt,另一个通过setup_file。除非我将导入移动到使用它们的函数中,否则我会不断收到导入/酸洗错误。示例错误如下。从文档中,我认为设置save_main_session将有助于解决此问题,但事实并非如此(请参阅下面的错误)。所以我想知道我是否错过了什么,或者这种行为是故意的。放入函数时,相同的导入工作正常。

错误:

  find_class 中的文件“/usr/lib/python2.7/pickle.py”,第 1130 行
    __import__(模块)
导入错误:没有名为 jmespath 的模块

python google-cloud-dataflow apache-beam

5
推荐指数
1
解决办法
4456
查看次数