小编yos*_*e_k的帖子

如何使用Python创建独立于语言的库?

如果我在Python中创建一个包,那么另一个Python用户可以导入该包并与之接口.

如何创建一个包,以便其他用户调用该库的语言无关紧要?

我可以指定输入和输出文件格式,以便另一种语言可以通过仅提供输入文件和读取输出文件来与我的Python代码进行交互.但是,创建输入和输出文件在计算上非常昂贵.有更简单的解决方案吗?

python api

12
推荐指数
2
解决办法
1016
查看次数

Python季节性分解频率参数确定

虽然这个问题似乎已经解决了很多,但我无法弄清楚为什么季节性分解在我的情况下不起作用,尽管我提供了一个带有日期时间索引的数据框作为输入。这是我的数据集的示例:

    Customer order actual date  Sales Volumes
0   01/01/1900                           300
1   10/03/2008                          3000
2   15/11/2013                            10
3   23/12/2013                           200
4   04/03/2014                             5
5   17/03/2014                            30
6   22/04/2014                             1
7   26/06/2014                           290
8   30/06/2014                            40
Run Code Online (Sandbox Code Playgroud)

代码片段如下所示:

from statsmodels.tsa.seasonal import seasonal_decompose
df_agg['Customer order actual date'] = pd.to_datetime(df_agg['Customer order actual date'])
df_agg = df_agg.set_index('Customer order actual date')
df_agg.reset_index().sort_values('Customer order actual date', ascending=True)
decomposition = seasonal_decompose(np.asarray(df_agg['Sales Volumes'] ), model = 'multiplicative')
Run Code Online (Sandbox Code Playgroud)

但我系统地得到以下错误:

:您必须指定一个频率或 x 必须是一个带有时间序列索引且频率未设置为 None 的 Pandas 对象

尽管我使用的是带有日期时间索引的数据框,但您能否解释一下为什么我应该提供频率输入?将频率作为输入参数是否有意义,而我正在寻找作为seasonal_decompose 输出的季节性?

python statsmodels

7
推荐指数
1
解决办法
1万
查看次数

Pandas JSON 东方自动检测

我试图找出 Pandas.read_json 是否执行某种程度的自动检测。例如,我有以下数据:

data_records = [
    {
        "device": "rtr1",
        "dc": "London",
        "vendor": "Cisco",
    },
    {
        "device": "rtr2",
        "dc": "London",
        "vendor": "Cisco",
    },
    {
        "device": "rtr3",
        "dc": "London",
        "vendor": "Cisco",
    },
]

data_index = {
    "rtr1": {"dc": "London", "vendor": "Cisco"},
    "rtr2": {"dc": "London", "vendor": "Cisco"},
    "rtr3": {"dc": "London", "vendor": "Cisco"},
}
Run Code Online (Sandbox Code Playgroud)

如果我执行以下操作:

import pandas as pd
import json

pd.read_json(json.dumps(data_records))
---
  device      dc vendor
0   rtr1  London  Cisco
1   rtr2  London  Cisco
2   rtr3  London  Cisco
Run Code Online (Sandbox Code Playgroud)

虽然我得到了我想要的输出,但数据是基于记录的。既然是默认的orient是列,我不认为这会起作用。

因此是否存在一定程度的自动检测?使用基于索引的输入,行为似乎更加内联。如图所示,默认情况下似乎已根据列方向解析数据。

pd.read_json(json.dumps(data_index))

          rtr1 …
Run Code Online (Sandbox Code Playgroud)

python json pandas

6
推荐指数
1
解决办法
955
查看次数

如何在R中指定dist函数的其他方法?

在R中的dist函数文档中,有以下几个字:

方法使用的距离测量.这必须是"欧几里德","最大","曼哈顿","堪培拉","二进制"或"minkowski"之一.可以给出任何明确的子串.

但是我需要根据列表中没有的自定义函数计算距离,有没有办法指定它?或者除了dist函数之外还有其他方法适合我的情况吗?

我知道我可以用lapply的方式来做,但我正在寻找一种更简洁的方法来做到这一点.

谢谢.

编辑:

我使用的距离方法是使用皮尔森距离的相关分数.有一种方便的方式吗?

r

5
推荐指数
1
解决办法
2937
查看次数

了解kfold scitkit中的cross_val_score

阅读doc for k fold cross validation http://scikit-learn.org/stable/modules/cross_validation.html我正在尝试理解每个折叠的训练过程.

这是正确的:在生成cross_val_score每个折叠包含一个新的训练和测试集时,clf下面的代码中传入的分类器使用这些训练和测试集来评估每个折叠性能吗?

这意味着增加折叠的大小会影响准确性,这取决于训练集的大小,因为增加折叠次数会减少每次折叠可用的训练数据?

从doc cross_val_score生成使用:

from sklearn.model_selection import cross_val_score
clf = svm.SVC(kernel='linear', C=1)
scores = cross_val_score(clf, iris.data, iris.target, cv=5)
scores                                              
array([ 0.96...,  1.  ...,  0.96...,  0.96...,  1.        ])
Run Code Online (Sandbox Code Playgroud)

python scikit-learn

1
推荐指数
1
解决办法
4062
查看次数

计算增长率

您好,我正在尝试计算列表中的增长率(以百分比表示)

def growth():

   population = [1, 3, 4, 7, 8, 12]

   # new list for growth rates
   growth_rate = []

   # for population in list
   for pop in population:

       gnumbers = ((population[pop] - population[pop-1]) / population[pop-1] * 100)
       growth_rate.append(gnumbers)
       print growth_rate

growth()
Run Code Online (Sandbox Code Playgroud)

但它在这里给了我一个索引错误(gnumbers)“IndexError,索引超出范围”

python python-2.7

0
推荐指数
1
解决办法
1万
查看次数

标签 统计

python ×5

api ×1

json ×1

pandas ×1

python-2.7 ×1

r ×1

scikit-learn ×1

statsmodels ×1