标签: data-analysis

In[1]: data
Out[1]: 
     Item                    Type
0  Orange           Edible, Fruit
1  Banana           Edible, Fruit
2  Tomato       Edible, Vegetable
3  Laptop  Non Edible, Electronic

In[2]: type(data)
Out[2]: pandas.core.frame.DataFrame

Run Code Online (Sandbox Code Playgroud)

我想要做的只是创建一个数据框Fruits,所以我需要groupby这样的方式Fruit存在于Type.

我试过这样做:

grouped = data.groupby(lambda x: "Fruit" in x, axis=1)

我不知道这是不是这样做,我有点难以理解groupby.我如何才能获得新DataFrame的Fruits？

python grouping data-analysis pandas

Com*_*low

lucky-day

6
推荐指数

2
解决办法

2230
查看次数

如何在MATLAB中识别数值数组中的断点

大家下午好,我有这个新问题,希望你能再次帮助我:

我有一个矢量,您可以在下一个链接中找到:

https://drive.google.com/file/d/0B4WGV21GqSL5Y09GU240N3F1YkU/edit?usp=sharing

绘制的矢量看起来像这样:

在此输入图像描述

如您所见,图中的某些部分数据的行为几乎是线性的.这就是我在说的:

在此输入图像描述

我需要的是根据数据中某些部分的线性来找到那些断点.你可能会问自己,当数据的一部分不是线性的时候会发生什么,好吧,算法不会采用那个部分.

我希望你能帮助我,谢谢.

matlab data-analysis adjustment

lis*_*jim

lucky-day

6
推荐指数

1
解决办法

2438
查看次数

为Pandas DataFrame的图形设置x轴间隔(刻度)

我正在尝试在Pandas DataFrame的matplotlib图上设置x轴的刻度(时间步长).我的目标是使用DataFrame的第一列作为刻度,但到目前为止我还没有成功.

我到目前为止的尝试包括:

尝试1:

#See 'xticks'
data_df[header_names[1]].plot(ax=ax, title="Roehrig Shock Data", style="-o", legend=True, xticks=data_df[header_names[0]])

Run Code Online (Sandbox Code Playgroud)

尝试2:

ax.xaxis.set_ticks(data_df[header_names[0]])

Run Code Online (Sandbox Code Playgroud)

header_names 只是列标题名称的列表,数据帧如下:

    Compression Velocity   Compression Force  
1               0.000213            6.810879             
2               0.025055          140.693200            
3               0.050146          158.401500            
4               0.075816          171.050200             
5               0.101011          178.639500              
6               0.126681          186.228800              
7               0.150925          191.288300            
8               0.176597          198.877500        
9               0.202269          203.937000        
10              0.227466          208.996500         
11              0.252663          214.056000

Run Code Online (Sandbox Code Playgroud)

以下是CSV格式的数据:

Compression Velocity,Compression Force
0.0002126891606,6.810879
0.025055073079999997,140.6932
0.050145696,158.4015
0.07581600279999999,171.0502
0.1010109232,178.6395
0.12668120459999999,186.2288
0.1509253776,191.2883
0.1765969798,198.8775
0.2022691662,203.937
0.2274659662,208.9965
0.2526627408,214.056

Run Code Online (Sandbox Code Playgroud)

这是一个阅读和绘制图表的实现:

data_df = pd.read_csv(file).astype(float)
fig = Figure()
ax = fig.add_subplot(111)
ax.set_xlabel("Velocity …

Run Code Online (Sandbox Code Playgroud)

python matplotlib data-analysis pandas

aus*_*acy

2014 12-16

6
推荐指数

1
解决办法

2万
查看次数

从pandas数据帧生成保留队列

我有一个像这样的pandas数据框:

+-----------+------------------+---------------+------------+
| AccountID | RegistrationWeek | Weekly_Visits | Visit_Week |
+-----------+------------------+---------------+------------+
| ACC1      | 2015-01-25       |             0 | NaT        |
| ACC2      | 2015-01-11       |             0 | NaT        |
| ACC3      | 2015-01-18       |             0 | NaT        |
| ACC4      | 2014-12-21       |            14 | 2015-02-12 |
| ACC5      | 2014-12-21       |             5 | 2015-02-15 |
| ACC6      | 2014-12-21       |             0 | 2015-02-22 |
+-----------+------------------+---------------+------------+

Run Code Online (Sandbox Code Playgroud)

它本质上是一种各种访问日志,因为它包含创建队列分析所需的所有数据.

每个注册周都是一个队列.要知道我可以使用的人群中有多少人:

visit_log.groupby('RegistrationWeek').AccountID.nunique()

Run Code Online (Sandbox Code Playgroud)

我想要做的是创建一个数据透视表,其中注册周作为键.列应为visit_weeks,值应为每周访问次数超过0次的唯一帐户ID的计数.

连同每个队列中的总帐户,我将能够显示百分比而不是绝对值.

最终产品看起来像这样:

+-------------------+-------------+-------------+-------------+
| Registration Week | Visit_week1 | …

Run Code Online (Sandbox Code Playgroud)

python data-analysis pandas retention

grz*_*ear

2015 02-26

6
推荐指数

1
解决办法

4157
查看次数

Python - Pandas比Numpy/Scipy有什么重大改进

我一直在使用numpy/scipy进行数据分析.我最近开始学习熊猫.

我已经完成了一些教程,我试图了解Pandas在Numpy/Scipy上的主要改进是什么.

在我看来,Pandas的关键思想是在数据框中包含不同的numpy数组,其中包含一些实用函数.

有什么关于熊猫的革命性的东西,我只是愚蠢地错过了吗？

python numpy data-analysis scipy pandas

Ven*_*tta

lucky-day

6
推荐指数

2
解决办法

2327
查看次数

如何计算点击率

这是一个例子,我有这个数据;

    datetime    keyword COUNT
0   2016-01-05  a_click 100
1   2016-01-05  a_pv    200
2   2016-01-05  b_pv    150
3   2016-01-05  b_click 90
4   2016-01-05  c_pv    120
5   2016-01-05  c_click 90

Run Code Online (Sandbox Code Playgroud)

我想将其转换为这些数据

    datetime    keyword ctr
0   2016-01-05  a       0.5
1   2016-01-05  b       0.6
2   2016-01-05  c       0.75

Run Code Online (Sandbox Code Playgroud)

我可以用脏代码转换数据,但我想以优雅的方式做到这一点.

python numpy machine-learning data-analysis pandas

sam*_*ait

2016 07-31

6
推荐指数

1
解决办法

548
查看次数

如何将Json转换为R中的数据框

我想将我的json数据转换为R中的数据框.这是我到目前为止所做的:

library("rjson")
result <- fromJSON(file ="mypath/data.json")
json_data_frame <- as.data.frame(result)

Run Code Online (Sandbox Code Playgroud)

但是,它会出现这样的错误:

data.frame中的错误(company_id ="12345678",country_name ="China",:参数意味着行数不同:1,2,0

我也尝试了以下代码:

library("rjson")
result <- fromJSON(file ="mypath/data.json")
final_data <- do.call(rbind, result)

Run Code Online (Sandbox Code Playgroud)

这个错误出现了:

警告消息:在(function(...,deparse.level = 1)中:结果列数不是向量长度的倍数(arg 3)

我不知道这里发生了什么,我怎么解决它.如果我能得到一些帮助,我将不胜感激.

以下是我的json数据的一些部分:

{"business_id":"1234567","Country_name":"中国","小时":{"星期一":{"关闭":"02:00","开放":"11:00"},"星期二":{"close":"02:00","open":"11:00"},"星期五":{"关闭":"02:00","打开":"11:00"}, "星期三":{"关闭":"02:00","打开":"11:00"},"星期四":{"关闭":"02:00","打开":"11:00" },"星期日":{"关闭":"02:00","打开":"12:00"},"星期六":{"关闭":"02:00","打开":"12: 00"}},"open":true,"categories":["Bars","Nightlife","Restaurants"],"city":"Beijing","review_count":5,"name":"陈氏酒吧","邻里":["West End"],"attributes":{"Take-out":true,"Wi-Fi":"free","Good For":{"dessert":false,"latenight" ":false,"午餐":假,"吃饭":假,"早餐":假,"早午餐":假,"好跳舞":虚假,"噪音等级":"响亮","需要预约" :false,"Delivery":false,"Ambience":{"romantic":false,"intimate":false,"classy":false,"hipster":false,"divey":false,"touristy":false, "时髦":虚假,"高档":虚假,"随意":虚假},"欢乐时光":真实,"停车":{"车库":虚假,"街道":虚假,"验证":虚假,"很多":虚假,"代客":虚假},"有电视":是的, "户外座位":虚假,"服装":"休闲","酒精":"full_bar","服务员服务":真实,"接受信用卡":真实,"对孩子有益":虚假,"适合团体":true,"Caters":true,"Price Range":1},"type":"business"}

json r data-analysis

Pin*_*Hsu

2016 04-07

6
推荐指数

2
解决办法

2万
查看次数