标签: data-analysis

Python,ROOT和MINUIT集成?

我是高能粒子物理系的一名谦虚的研究生.由于对C/C++毫无根据的厌恶以及对python的热爱,我到目前为止已经使用python进行数据分析(只是简单的事情)并且我将尝试支持针对ROOT库的python脚本,特别是使用MINUIT一些参数最小化.

除了询问是否有人对这些的安装和使用有任何提示,我想知道是否值得尝试它或只是为了使用C/C++的"规范",或者像pyminuit这样的东西是可用的.或者您认为我可以将整个C/C++脚本包装成python代码以利用我现有的自编分析方法(我还没有包装经验).抱歉模糊不清; 我走向了一个远远超过我目前经历的伟大未知.

python data-analysis word-wrap root-framework

3
推荐指数
1
解决办法
1763
查看次数

如何检测时间序列数据的变化是否不再重要?

我有一组新闻文章,其中有统计数据,例如:提及文章的推特帖子数量.统计数据值的自然行为是新帖的数量增长很快,然后随着新闻的老化而减少.

我想知道如何计算统计数据的变化不再显着的天数(例如:对于整个数据集的0.1%,具有一定的置信水平).

你能给出一些提示,在哪里寻找信息和方法吗?我也很欣赏Python中的一些代码示例:)

python statistics time-series significance data-analysis

3
推荐指数
1
解决办法
5518
查看次数

Python Pandas 添加具有相对订单号的列

如何向现有 DataFrame 添加订单号列?

这是我的数据帧:

import pandas as pd
import math
frame = pd.DataFrame([[1, 4, 2], [8, 9, 2], [10, 2, 1]], columns=['a', 'b', 'c'])

def add_stats(row):
    row['sum'] = sum([row['a'], row['b'], row['c']])
    row['sum_sq'] = sum(math.pow(v, 2) for v in [row['a'], row['b'], row['c']])
    row['max'] = max(row['a'], row['b'], row['c'])
    return row

frame = frame.apply(add_stats, axis=1)
print(frame.head())
Run Code Online (Sandbox Code Playgroud)

结果数据为:

    a  b  c  sum  sum_sq  max
0   1  4  2    7      21    4
1   8  9  2   19     149    9
2  10  2  1   13     105 …
Run Code Online (Sandbox Code Playgroud)

python data-analysis pandas

3
推荐指数
1
解决办法
2379
查看次数

对象pandas没有属性名称Series

import pandas as pd
numbers = {1,2,3,4,5}
ser = pd.Series(numbers)
print ser
Run Code Online (Sandbox Code Playgroud)

我在python中为pandas系列编写了这段代码.但是它给了这个

"AttributeError:'module'对象没有属性'Series'"

请帮我

python data-analysis pandas

3
推荐指数
2
解决办法
1万
查看次数

在python中使用的最佳数据结构,用于存储命名数据的3维多维数据集

我想要一些有关数据结构选择的反馈。我有一个用于特定电压值的2D XY网格的电流值。我有几个电压步骤,并将数据组织到一个XY-Voltage多维数据集中。我在这里说明了轴:http : //imgur.com/FVbluwB

我目前在python字典中使用numpy数组,用于我要扫描的另一种晶体管。我不确定这是否是最好的方法。我看过熊猫,但也不确定这是否对熊猫好。希望有人能帮助我,让我可以学会做Python!生成一些测试数据的代码和最终结构如下。

谢谢!

import numpy as np

#make test data

test__transistor_data0 = {"SNMOS":np.random.randn(3,256,256),"SPMOS":np.random.randn(4,256,256), "WPMOS":np.random.randn(6,256,256),"WNMOS":np.random.randn(6,256,256)}
test__transistor_data1 = {"SNMOS":np.random.randn(3,256,256), "SPMOS":np.random.randn(4,256,256), "WPMOS":np.random.randn(6,256,256), "WNMOS":np.random.randn(6,256,256)}
test__transistor_data2 = {"SNMOS":np.random.randn(3,256,256), "SPMOS":np.random.randn(4,256,256), "WPMOS":np.random.randn(6,256,256), "WNMOS":np.random.randn(6,256,256)}
test__transistor_data3 = {"SNMOS":np.random.randn(3,256,256), "SPMOS":np.random.randn(4,256,256), "WPMOS":np.random.randn(6,256,256), "WNMOS":np.random.randn(6,256,256)}


quadrant_data = {"ne":test__transistor_data0,"nw":test__transistor_data1,"sw":test__transistor_data2,"se":test__transistor_data3} 
Run Code Online (Sandbox Code Playgroud)

python numpy data-analysis data-structures pandas

3
推荐指数
1
解决办法
1295
查看次数

如果不满足条件,则暂停R脚本(以交互方式运行)

使用案例:我在RStudio中进行交互式数据分析,即我突出显示了一堆代码并点击了运行.有时,即使我的代码运行正常,也存在统计上使我的分析无效的条件.我想在这些情况下停止代码或抛出一些非常疯狂的错误.

最小的工作示例:

stopifnot(TRUE, FALSE)
x <- 42
Run Code Online (Sandbox Code Playgroud)

如果我突出显示两行并运行,42仍然会分配给x.这很糟糕 - 我不希望任何一行stopifnot(TRUE, FALSE)继续运行(因为它们在统计上无效,而在程序上很好).如果条件不满足,有没有办法完全停止代码?

r data-analysis rstudio

3
推荐指数
1
解决办法
790
查看次数

使用python-pandas在组内排名

我正在solver使用一组实例比较一组八个算法(列),每个实例对每个算法执行一次,参数级别D从1到10执行.因此,结果数据框将如下所示:

         instance  D    z             solver
0   1000_ep0.0075  1  994         threatened
1   1000_ep0.0075  1  993               desc
2   1000_ep0.0075  1  994             degree
3   1000_ep0.0075  1  993    threatened_desc
4   1000_ep0.0075  1  993  threatened_degree
5   1000_ep0.0075  1  994         desc_later
6   1000_ep0.0075  1  994       degree_later
7   1000_ep0.0075  1  993         dyn_degree
8   1000_ep0.0075  2  986         threatened
9   1000_ep0.0075  2  987               desc
10  1000_ep0.0075  2  988             degree
11  1000_ep0.0075  2  987    threatened_desc
12  1000_ep0.0075  2  986  threatened_degree
13  1000_ep0.0075  2  987         desc_later
14 …
Run Code Online (Sandbox Code Playgroud)

data-analysis python-3.x pandas

3
推荐指数
1
解决办法
3174
查看次数

如何在散点图中圈出不同的数据集?

如何在散点图中圈出不同的数据集?

我正在寻找的是这样的:

在散点图中圈出不同的数据集

另外,此后如何用(阴影)颜色填充圆圈?

python latex graph matplotlib data-analysis

3
推荐指数
1
解决办法
2273
查看次数

在python中使用pandas检索数据列上的匹配字数

我有一个 df,

Name      Description
Ram Ram   is one of the good cricketer
Sri Sri   is one of the member
Kumar     Kumar is a keeper
Run Code Online (Sandbox Code Playgroud)

和一个列表,my_list=["one","good","ravi","ball"]

我试图从 my_list 中获取至少有一个关键字的行。

我试过,

  mask=df["Description"].str.contains("|".join(my_list),na=False)
Run Code Online (Sandbox Code Playgroud)

我得到了 output_df,

Name    Description
Ram     Ram is one of ONe crickete
Sri     Sri is one of the member
Ravi    Ravi is a player, ravi is playing
Kumar   there is a BALL
Run Code Online (Sandbox Code Playgroud)

我还想添加“描述”中存在的关键字及其在单独列中的计数,

我想要的输出是,

Name    Description                      pre-keys          keys     count
Ram     Ram is one of ONe crickete         one,good,ONe   one,good    2
Sri     Sri …
Run Code Online (Sandbox Code Playgroud)

python data-analysis dataframe pandas

3
推荐指数
1
解决办法
82
查看次数

如何将我的数据框转换为所有列作为列表的二维列表

我有一个 df,

Name  Class
Sri   A
Ram   B
Run Code Online (Sandbox Code Playgroud)

我的预期输出是

 [["Name","Sri","Ram"],["Class","A","B"]]
Run Code Online (Sandbox Code Playgroud)

我试过df.values.tolist()但给出了行明智的列表,我需要按列进行。提前致谢

python list data-analysis dataframe pandas

3
推荐指数
1
解决办法
5053
查看次数