标签: data-analysis

为什么 pd.unique() 比 np.unique() 更快?

我尝试比较两者,一个是,pandas.unique()另一个是numpy.unique(),我发现后者实际上超越了第一个。
我不确定阁下是否是线性的。

谁能告诉我为什么在代码实现方面存在这样的差异?什么情况下我应该使用哪个?

python numpy data-analysis pandas data-science

7
推荐指数
1
解决办法
2817
查看次数

使用迭代值增量进行趋势分析

我们已经配置 iReport 来生成以下图表:

真实数据点为蓝色,趋势线为绿色。问题包括:

  • 趋势线的数据点太多
  • 趋势线不遵循贝塞尔曲线(样条线)

问题的根源在于增量器类。增量器被迭代地提供数据点。似乎没有办法获取这组数据。计算趋势线的代码如下:

import java.math.BigDecimal;
import net.sf.jasperreports.engine.fill.*;

/**
 * Used by an iReport variable to increment its average.
 */
public class MovingAverageIncrementer
  implements JRIncrementer {
  private BigDecimal average;

  private int incr = 0;

  /**
   * Instantiated by the MovingAverageIncrementerFactory class.
   */
  public MovingAverageIncrementer() {
  }

  /**
   * Returns the newly incremented value, which is calculated by averaging
   * the previous value from the previous call to this method.
   * 
   * @param jrFillVariable Unused.
   * @param object …
Run Code Online (Sandbox Code Playgroud)

java algorithm data-analysis ireport

6
推荐指数
1
解决办法
4691
查看次数

熊猫系列的python键值列表

我在python中有以下时间序列表:

list = [(datetime.datetime(2008, 7, 15, 15, 0), 0.134),
    (datetime.datetime(2008, 7, 15, 16, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 17, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 18, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 19, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 20, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 21, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 22, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 23, 0), 0.0),
    (datetime.datetime(2008, 7, 16, 0, 0), 0.0)]
Run Code Online (Sandbox Code Playgroud)

此列表是一个键值对,其中键是datetime,value是以逗号分隔后的值.我想从键(日期时间)和值(十进制值)创建熊猫系列.任何人都可以帮我把上面的时间序列值列表分成两个列表(list1和list2),这样我可以从以下代码中创建pandas Series对象以进行进一步分析?

import pandas as pd
ts = pd.Series(list1, list2)
Run Code Online (Sandbox Code Playgroud)

python numpy time-series data-analysis pandas

6
推荐指数
1
解决办法
4747
查看次数

Pandas DataFrame 找到 Groupby 两列后的最大值并获取计数

我有一个数据框 df 如下:

   userId  pageId  tag
0  3122471  e852   18
1  3122471  f3e2   18
2  3122471  7e93   18
3  3122471  2768    6
4  3122471  53d9    6
5  3122471  06d7   15
6  3122471  e31c   15
7  3122471  c6f3    2
8  1234123  fjwe    1
9  1234123  eiae    4
10 1234123  ieha    4
Run Code Online (Sandbox Code Playgroud)

使用后df.groupby(['userId', 'tag'])['pageId'].count()按 userId 和 tag 对数据进行分组。我会得到:

userId   tag
3122471  2      1
         6      2
         15     2
         18     3
1234123   1     1
          4     2
Run Code Online (Sandbox Code Playgroud)

现在我想找到每个用户拥有最多的标签。如下:

userId   tag
3122471  18
1234123 …
Run Code Online (Sandbox Code Playgroud)

python data-analysis dataframe python-3.x pandas

6
推荐指数
1
解决办法
1万
查看次数

使用基于训练数据集的模型预测测试数据?

我是数据科学和分析的新手。在 Kaggle 上研究了很多内核之后,我制作了一个预测房产价格的模型。我已经使用我的训练数据测试了这个模型,但现在我想在我的测试数据上运行它。我有一个 test.csv 文件,我想使用它。我怎么做?我之前对训练数据集做了什么:

#loading my train dataset into python
train = pd.read_csv('/Users/sohaib/Downloads/test.csv')

#factors that will predict the price
train_pr = ['OverallQual','GrLivArea','GarageCars','TotalBsmtSF','FullBath','YearBuilt']

#set my model to DecisionTree
model = DecisionTreeRegressor()

#set prediction data to factors that will predict, and set target to SalePrice
prdata = train[train_pr]
target = train.SalePrice

#fitting model with prediction data and telling it my target
model.fit(prdata, target)

model.predict(prdata.head())
Run Code Online (Sandbox Code Playgroud)

现在我尝试做的是,复制整个代码,并将“train”更改为“test”,将“predate”更改为“testprdata”,我认为它会起作用,但遗憾的是没有。我知道我做错了什么,我不知道那是什么。

python data-analysis scikit-learn data-science

6
推荐指数
1
解决办法
3万
查看次数

Python & Pandas - pd.Series difference between int32 and int64

I'm starting to learn python, numpy and panda's and I have a really basic question, about sizes.

Please see the next code blocks:

1. Length: 6, dtype: int64

# create a Series from a dict
pd.Series({key: value for key, value in zip('abcdef', range(6))})
Run Code Online (Sandbox Code Playgroud)

vs.

2. Length: 6, dtype: int32

# but why does this generate a smaller integer size???
pd.Series(range(6), index=list('abcdef'))
Run Code Online (Sandbox Code Playgroud)

Question So I think when you put a list, numpy array, dictionary etc. in the pd.Series you will get …

python numpy data-analysis pandas

6
推荐指数
1
解决办法
1766
查看次数

计算 pandas 数据帧行中的非空单元格并将计数添加为列

使用Python,我想计算pandas 数据框中包含数据的行中的单元格数量,并将计数记录在该行最左边的单元格中

根据要求在左侧显示计数列的框架

python data-analysis dataframe pandas

6
推荐指数
1
解决办法
2万
查看次数

熊猫+ groupby

数据集包含4列,其中name是孩子的名字,yearofbirth表示孩子出生的年份,number表示使用该特定姓名命名的婴儿数.

   For example, entry 1 reads, in the year 1880, 7065 girl children were named Mary.
Run Code Online (Sandbox Code Playgroud)

数据集的HEAD

通过大熊猫,我试图找出每年哪个名字最常用的名字.我的代码

   df.groupby(['yearofbirth']).agg({'number':'max'}).reset_index()
Run Code Online (Sandbox Code Playgroud)

上面的代码部分回答了手头的问题.

查询结果

我想要名字和最大数字.

python data-analysis pandas pandas-groupby

6
推荐指数
1
解决办法
104
查看次数

所有参数的情节长度应相同

我尝试使用plotly.express 制作条形图,但发现这个问题

所有参数应该具有相同的长度。参数的长度y 是 51,而先前处理的参数 ['x'] 的长度是 4399,这是我的代码

import pandas as pd
import plotly.express as px
df= pd.read_csv('...../datasets-723010-1257097-fatal-police-shootings-data1.csv.xls')
c = df['state'].value_counts()
fig =px.bar(c , x = df['state'])
fig.show()
Run Code Online (Sandbox Code Playgroud)

此数据样本 在此处输入图像描述

python data-analysis plotly

6
推荐指数
1
解决办法
2万
查看次数

如何使用 Pandas 进行数据分析(如计数、ucounts、频率)?

我有如下 DataFrame:

df = pd.DataFrame([
    ("i", 1, 'GlIrbixGsmCL'),
    ("i", 1, 'GlIrbixGsmCL'),
    ("i", 1, '3IMR1UteQA'),
    ("c", 1, 'GlIrbixGsmCL'),
    ("i", 2, 'GlIrbixGsmCL'),
], columns=['type', 'cid', 'userid'])
Run Code Online (Sandbox Code Playgroud)

预期输出如: 期待输出

更多细节:

i_counts, c_counts      => df.groupby(["cid","type"]).size()
i_ucounts, c_ucounts    => df.groupby(["cid","type"])["userid"].nunique()
i_frequency,u_frequency => df.groupby(["cid","type"])["userid"].value_counts()
Run Code Online (Sandbox Code Playgroud)

看起来对我来说有点复杂,如何使用pandas来获得预期的结果?

相关截图: 截图

python data-analysis pandas pandas-groupby

6
推荐指数
1
解决办法
125
查看次数