标签: data-analysis

如何通过两列或更多列对python pandas中的dataFrame进行排序?

假设我有一个包含列的数据框a,b并且c我想按列b升序排序数据帧,按列c降序排序,我该怎么做?

python sorting data-analysis python-2.7 pandas

205
推荐指数
3
解决办法
23万
查看次数

实时时间序列数据中的峰值信号检测


更新:迄今为止 表现最佳的算法就是这个算法.


该问题探讨了用于检测实时时间序列数据中的突然峰值的稳健算法.

请考虑以下数据集:

p = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1 1 1 1.1 0.9 1 1.1 1 1 0.9 1, ...
     1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1 1 1.1 1.2 1 1.5 1 3 2 5 3 2 1 1 1 0.9 1 1 3, ... 
     2.6 4 3 3.2 2 1 1 0.8 4 4 …
Run Code Online (Sandbox Code Playgroud)

language-agnostic algorithm signal-processing time-series data-analysis

195
推荐指数
18
解决办法
14万
查看次数

为什么一个热门编码可以提高机器学习性能?

我注意到,当在特定数据集(矩阵)上使用One Hot编码并将其用作学习算法的训练数据时,与使用原始矩阵本身作为训练数据相比,它在预测准确性方面提供了明显更好的结果.这种性能提升如何发生?

machine-learning data-mining data-analysis scikit-learn

123
推荐指数
1
解决办法
4万
查看次数

将多项式模型拟合为R中的数据

我已经阅读了这个问题的答案并且它们非常有用,但我需要特别是在R中提供帮助.

我在R中有一个示例数据集,如下所示:

x <- c(32,64,96,118,126,144,152.5,158)  
y <- c(99.5,104.8,108.5,100,86,64,35.3,15)
Run Code Online (Sandbox Code Playgroud)

我想为这些数据拟合一个模型y = f(x).我希望它是一个三阶多项式模型.

我怎么能在R?

另外,R可以帮我找到最合适的模型吗?

r curve-fitting data-analysis polynomial-math

80
推荐指数
4
解决办法
13万
查看次数

如何使用pandas对列中与给定条件匹配的值求和?

假设我有一个这样的列:

a   b  
1   5   
1   7
2   3
1   3
2   5
Run Code Online (Sandbox Code Playgroud)

我要总结的值b,其中a = 1,例如.这会给我5 + 7 + 3 = 15.

我怎么在熊猫里这样做?

python data-analysis dataframe pandas

53
推荐指数
2
解决办法
9万
查看次数

绘制Pandas GroupBy的结果

我开始学习熊猫,并试图找到最多的Pythonic(或panda-thonic?)方法来完成某些任务.

假设我们有一个包含A,B和C列的DataFrame.

  • A列包含布尔值:每行的A值为true或false.
  • B列有一些我们想要绘制的重要值.

我们想要发现的是A值设置为false的行的B值与A值为真的行的B值之间的细微差别.

换句话说,如何按列A的值(true或false)进行分组,然后在同一图表上绘制B列的值?两个数据集的颜色应不同,以便能够区分这些点.


接下来,让我们为这个程序添加另一个功能:在绘图之前,我们想为每一行计算另一个值并将其存储在D列中.这个值是记录前整个五分钟存储在B中的所有数据的平均值 - 但是我们只包含存储在A中的具有相同布尔值的行.

换句话说,如果我有一行A=Truetime=t,我想计算列D的值,它是从时间t-5t具有相同的所有记录的B的平均值A=True.

在这种情况下,我们如何在A的值上执行groupby,然后将此计算应用于每个单独的组,最后绘制两个组的D值?

python group-by matplotlib data-analysis pandas

39
推荐指数
1
解决办法
4万
查看次数

Python:pandas合并多个数据帧

我有不同的数据帧,需要根据日期列将它们合并在一起.如果我只有两个数据帧,我可以使用df1.merge(df2, on='date')它来做三个数据帧df1.merge(df2.merge(df3, on='date'), on='date'),但是,使用多个数据帧,它变得非常复杂和难以理解.

所有数据帧都有一个共同的列 - date但它们没有相同数量的行或列,我只需要每个日期对每个数据帧都是通用的那些行.

所以,我正在尝试编写一个递归函数,它返回一个包含所有数据的数据帧,但它不起作用.那么我应该如何合并多个数据帧呢?

我试图diferent的方式,得到了类似的错误out of range,keyerror 0/1/2/3can not merge DataFrame with instance of type <class 'NoneType'>.

这是我写的脚本:

dfs = [df1, df2, df3] # list of dataframes

def mergefiles(dfs, countfiles, i=0):
    if i == (countfiles - 2): # it gets to the second to last and merges it with the last
        return

    dfm = dfs[i].merge(mergefiles(dfs[i+1], countfiles, i=i+1), on='date')
    return dfm

print(mergefiles(dfs, len(dfs)))
Run Code Online (Sandbox Code Playgroud)

一个例子:df_1:

May 19, …
Run Code Online (Sandbox Code Playgroud)

python merge data-analysis dataframe pandas

39
推荐指数
8
解决办法
5万
查看次数

R和SPSS的区别

我将很快分析大量的网络流量相关数据,并将对数据进行预处理以进行分析.我发现R和SPSS是最流行的统计分析工具之一.我还将生成相当多的图形和图表.因此,我想知道这两个软件之间的基本区别是什么.

我不是问哪个更好,而只是想知道两者之间的工作流程有什么不同(除了SPSS有GUI之外).无论如何,我将主要使用脚本,所以我想了解其他差异.

statistics r spss data-analysis

36
推荐指数
5
解决办法
7万
查看次数

如何更改pandas数据帧中的单个索引值?

energy.loc['Republic of Korea']
Run Code Online (Sandbox Code Playgroud)

我想将"韩国"指数的价值改为"韩国".但是数据框太大,无法更改每个索引值.我如何仅更改此单个值?

python data-analysis pandas

28
推荐指数
6
解决办法
4万
查看次数

我什么时候应该使用C++而不是SQL?

我是一名C++程序员偶尔使用MySQL来处理数据库,但我的SQL知识相当有限.但我肯定愿意改变这一点.

目前我正在尝试对数据库中的数据进行分析(!),仅使用SQL查询.但我即将放弃,而是将数据导入C++并使用C++代码进行分析.

我和我的同事讨论过这个问题,他们也让我使用C++,说SQL不是用于复杂分析,而是主要用于导入(从现有表)和导出(到新表)数据,还有更多例如将数据合并到 - 例如 - 连接表.

有人可以帮我划清界限吗?所以我知道何时切换到C++?当然,性能也是一个问题.

什么迹象表明事情在SQL中变得复杂?或者我可能只是采用错误的方法来设计查询.那我在哪里可以找到教程,书籍......采取更好的方法?

我希望这不是太模糊.我真的有点失落.

c++ mysql sql data-analysis

24
推荐指数
3
解决办法
6746
查看次数