假设我有一个包含列的数据框a
,b
并且c
我想按列b
升序排序数据帧,按列c
降序排序,我该怎么做?
更新:迄今为止 表现最佳的算法就是这个算法.
该问题探讨了用于检测实时时间序列数据中的突然峰值的稳健算法.
请考虑以下数据集:
p = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1 1 1 1.1 0.9 1 1.1 1 1 0.9 1, ...
1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1 1 1.1 1.2 1 1.5 1 3 2 5 3 2 1 1 1 0.9 1 1 3, ...
2.6 4 3 3.2 2 1 1 0.8 4 4 …
Run Code Online (Sandbox Code Playgroud) language-agnostic algorithm signal-processing time-series data-analysis
我注意到,当在特定数据集(矩阵)上使用One Hot编码并将其用作学习算法的训练数据时,与使用原始矩阵本身作为训练数据相比,它在预测准确性方面提供了明显更好的结果.这种性能提升如何发生?
我已经阅读了这个问题的答案并且它们非常有用,但我需要特别是在R中提供帮助.
我在R中有一个示例数据集,如下所示:
x <- c(32,64,96,118,126,144,152.5,158)
y <- c(99.5,104.8,108.5,100,86,64,35.3,15)
Run Code Online (Sandbox Code Playgroud)
我想为这些数据拟合一个模型y = f(x)
.我希望它是一个三阶多项式模型.
我怎么能在R?
另外,R可以帮我找到最合适的模型吗?
假设我有一个这样的列:
a b
1 5
1 7
2 3
1 3
2 5
Run Code Online (Sandbox Code Playgroud)
我要总结的值b
,其中a = 1
,例如.这会给我5 + 7 + 3 = 15
.
我怎么在熊猫里这样做?
我开始学习熊猫,并试图找到最多的Pythonic(或panda-thonic?)方法来完成某些任务.
假设我们有一个包含A,B和C列的DataFrame.
我们想要发现的是A值设置为false的行的B值与A值为真的行的B值之间的细微差别.
换句话说,如何按列A的值(true或false)进行分组,然后在同一图表上绘制B列的值?两个数据集的颜色应不同,以便能够区分这些点.
接下来,让我们为这个程序添加另一个功能:在绘图之前,我们想为每一行计算另一个值并将其存储在D列中.这个值是记录前整个五分钟存储在B中的所有数据的平均值 - 但是我们只包含存储在A中的具有相同布尔值的行.
换句话说,如果我有一行A=True
和time=t
,我想计算列D的值,它是从时间t-5
到t
具有相同的所有记录的B的平均值A=True
.
在这种情况下,我们如何在A的值上执行groupby,然后将此计算应用于每个单独的组,最后绘制两个组的D值?
我有不同的数据帧,需要根据日期列将它们合并在一起.如果我只有两个数据帧,我可以使用df1.merge(df2, on='date')
它来做三个数据帧df1.merge(df2.merge(df3, on='date'), on='date')
,但是,使用多个数据帧,它变得非常复杂和难以理解.
所有数据帧都有一个共同的列 - date
但它们没有相同数量的行或列,我只需要每个日期对每个数据帧都是通用的那些行.
所以,我正在尝试编写一个递归函数,它返回一个包含所有数据的数据帧,但它不起作用.那么我应该如何合并多个数据帧呢?
我试图diferent的方式,得到了类似的错误out of range
,keyerror 0/1/2/3
和can not merge DataFrame with instance of type <class 'NoneType'>
.
这是我写的脚本:
dfs = [df1, df2, df3] # list of dataframes
def mergefiles(dfs, countfiles, i=0):
if i == (countfiles - 2): # it gets to the second to last and merges it with the last
return
dfm = dfs[i].merge(mergefiles(dfs[i+1], countfiles, i=i+1), on='date')
return dfm
print(mergefiles(dfs, len(dfs)))
Run Code Online (Sandbox Code Playgroud)
一个例子:df_1:
May 19, …
Run Code Online (Sandbox Code Playgroud) 我将很快分析大量的网络流量相关数据,并将对数据进行预处理以进行分析.我发现R和SPSS是最流行的统计分析工具之一.我还将生成相当多的图形和图表.因此,我想知道这两个软件之间的基本区别是什么.
我不是问哪个更好,而只是想知道两者之间的工作流程有什么不同(除了SPSS有GUI之外).无论如何,我将主要使用脚本,所以我想了解其他差异.
energy.loc['Republic of Korea']
Run Code Online (Sandbox Code Playgroud)
我想将"韩国"指数的价值改为"韩国".但是数据框太大,无法更改每个索引值.我如何仅更改此单个值?
我是一名C++程序员偶尔使用MySQL来处理数据库,但我的SQL知识相当有限.但我肯定愿意改变这一点.
目前我正在尝试对数据库中的数据进行分析(!),仅使用SQL查询.但我即将放弃,而是将数据导入C++并使用C++代码进行分析.
我和我的同事讨论过这个问题,他们也让我使用C++,说SQL不是用于复杂分析,而是主要用于导入(从现有表)和导出(到新表)数据,还有更多例如将数据合并到 - 例如 - 连接表.
有人可以帮我划清界限吗?所以我知道何时切换到C++?当然,性能也是一个问题.
什么迹象表明事情在SQL中变得复杂?或者我可能只是采用错误的方法来设计查询.那我在哪里可以找到教程,书籍......采取更好的方法?
我希望这不是太模糊.我真的有点失落.
data-analysis ×10
pandas ×5
python ×5
dataframe ×2
r ×2
algorithm ×1
c++ ×1
data-mining ×1
group-by ×1
matplotlib ×1
merge ×1
mysql ×1
python-2.7 ×1
scikit-learn ×1
sorting ×1
spss ×1
sql ×1
statistics ×1
time-series ×1