小编kpa*_*pax的帖子

使用curve_fit将曲线拟合到幂律分布不起作用

我试图找到一条适合我的数据的曲线,在视觉上似乎具有幂律分布.

我希望利用scipy.optimize.curve_fit,但无论我尝试什么功能或数据规范化,我都会得到RuntimeError(找不到参数或溢出)或者甚至远程不适合我的数据的曲线.请帮我弄清楚我在做错了什么.

%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit

df = pd.DataFrame({
            'x': [ 1000, 3250, 5500, 10000, 32500, 55000, 77500, 100000, 200000 ],
            'y': [ 1100, 500, 288, 200, 113, 67, 52, 44, 5 ]
        })
df.plot(x='x', y='y', kind='line', style='--ro', figsize=(10, 5))

def func_powerlaw(x, m, c, c0):
    return c0 + x**m * c

target_func = func_powerlaw

X = df['x']
y = df['y']

popt, pcov = curve_fit(target_func, X, y) …

Run Code Online (Sandbox Code Playgroud)

python numpy scipy scikit-learn

kpa*_*pax

lucky-day

7
推荐指数

2
解决办法

1万
查看次数

熊猫:条件组特定计算

假设我有一个带密钥的表(例如客户ID)和两个数字列C1和C2.我想按键(客户)对行进行分组,并在其列上运行一些聚合器,如sum和mean.在计算组聚合器之后,我想将结果分配回DataFrame中的每个客户行(因为某些客户范围的功能已添加到每一行).

我可以看到,我可以做一些事情,
df['F1'] = df.groupby(['Key'])['C1'].transform(np.sum)
如果我想只聚合一列,并能够将结果添加回DataFrame.

我可以使它成为条件 - 我可以在一个组中添加C1列,仅用于C2列等于某个数字X的行,并且仍然能够将结果添加回DataFrame吗？

如何在以下行的组合上运行聚合器:
np.sum(C1 + C2)？

实现它的最简单,最优雅的方法是什么？最有效的方法是什么？这些聚合可以在一条路径上完成吗？

先感谢您.

python pandas

kpa*_*pax

lucky-day

5
推荐指数

1
解决办法

4852
查看次数

使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义？

我正在考虑将 Google DataFlow 作为运行管道的选项，该管道涉及以下步骤：

从网络下载图像；
处理图像。

我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期，因此我不需要自己启动或停止它们，但我遇到的所有示例都使用它来执行数据挖掘类型的任务。我想知道对于图像处理和爬行等其他批处理任务来说，这是否是一个可行的选择。

amazon-data-pipeline google-cloud-platform google-cloud-dataflow azure-data-factory apache-beam

kpa*_*pax

2017 07-10

5
推荐指数

1
解决办法

1950
查看次数

Google DataFlow/Python：在 main 中使用 save_main_session 和自定义模块导入错误

有人可以澄清在使用save_main_session和自定义模块时的预期行为吗__main__？我的 DataFlow 管道导入 2 个非标准模块 - 一个通过requirements.txt，另一个通过setup_file。除非我将导入移动到使用它们的函数中，否则我会不断收到导入/酸洗错误。示例错误如下。从文档中，我认为设置save_main_session将有助于解决此问题，但事实并非如此（请参阅下面的错误）。所以我想知道我是否错过了什么，或者这种行为是故意的。放入函数时，相同的导入工作正常。

错误：

  find_class 中的文件“/usr/lib/python2.7/pickle.py”，第 1130 行
    __import__（模块）
导入错误：没有名为 jmespath 的模块

python google-cloud-dataflow apache-beam

kpa*_*pax

lucky-day

5
推荐指数

1
解决办法

4456
查看次数

标签统计

python ×3

apache-beam ×2

google-cloud-dataflow ×2

amazon-data-pipeline ×1

azure-data-factory ×1

google-cloud-platform ×1

numpy ×1

pandas ×1

scikit-learn ×1

scipy ×1

使用curve_fit将曲线拟合到幂律分布不起作用

熊猫:条件组特定计算

使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义？

Google DataFlow/Python：在 __main__ 中使用 save_main_session 和自定义模块导入错误

标签 统计

小编kpa_pax的帖子

Google DataFlow/Python：在 main 中使用 save_main_session 和自定义模块导入错误

标签统计