标签: data-analysis

为什么 pd.unique() 比 np.unique() 更快？

我尝试比较两者，一个是，pandas.unique()另一个是numpy.unique()，我发现后者实际上超越了第一个。
我不确定阁下是否是线性的。

谁能告诉我为什么在代码实现方面存在这样的差异？什么情况下我应该使用哪个？

python numpy data-analysis pandas data-science

Son*_* Li

2021 11-10

7
推荐指数

1
解决办法

2817
查看次数

使用迭代值增量进行趋势分析

我们已经配置 iReport 来生成以下图表：

真实数据点为蓝色，趋势线为绿色。问题包括：

趋势线的数据点太多
趋势线不遵循贝塞尔曲线（样条线）

问题的根源在于增量器类。增量器被迭代地提供数据点。似乎没有办法获取这组数据。计算趋势线的代码如下：

import java.math.BigDecimal;
import net.sf.jasperreports.engine.fill.*;

/**
 * Used by an iReport variable to increment its average.
 */
public class MovingAverageIncrementer
  implements JRIncrementer {
  private BigDecimal average;

  private int incr = 0;

  /**
   * Instantiated by the MovingAverageIncrementerFactory class.
   */
  public MovingAverageIncrementer() {
  }

  /**
   * Returns the newly incremented value, which is calculated by averaging
   * the previous value from the previous call to this method.
   * 
   * @param jrFillVariable Unused.
   * @param object …

Run Code Online (Sandbox Code Playgroud)

java algorithm data-analysis ireport

Dav*_*vis

2010 03-19

6
推荐指数

1
解决办法

4691
查看次数

熊猫系列的python键值列表

我在python中有以下时间序列表:

list = [(datetime.datetime(2008, 7, 15, 15, 0), 0.134),
    (datetime.datetime(2008, 7, 15, 16, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 17, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 18, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 19, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 20, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 21, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 22, 0), 0.0),
    (datetime.datetime(2008, 7, 15, 23, 0), 0.0),
    (datetime.datetime(2008, 7, 16, 0, 0), 0.0)]

Run Code Online (Sandbox Code Playgroud)

此列表是一个键值对,其中键是datetime,value是以逗号分隔后的值.我想从键(日期时间)和值(十进制值)创建熊猫系列.任何人都可以帮我把上面的时间序列值列表分成两个列表(list1和list2),这样我可以从以下代码中创建pandas Series对象以进行进一步分析？

import pandas as pd
ts = pd.Series(list1, list2)

Run Code Online (Sandbox Code Playgroud)

python numpy time-series data-analysis pandas

Add*_*dds

2014 04-30

6
推荐指数

1
解决办法

4747
查看次数

Pandas DataFrame 找到 Groupby 两列后的最大值并获取计数

我有一个数据框 df 如下：

   userId  pageId  tag
0  3122471  e852   18
1  3122471  f3e2   18
2  3122471  7e93   18
3  3122471  2768    6
4  3122471  53d9    6
5  3122471  06d7   15
6  3122471  e31c   15
7  3122471  c6f3    2
8  1234123  fjwe    1
9  1234123  eiae    4
10 1234123  ieha    4

Run Code Online (Sandbox Code Playgroud)

使用后df.groupby(['userId', 'tag'])['pageId'].count()按 userId 和 tag 对数据进行分组。我会得到：

userId   tag
3122471  2      1
         6      2
         15     2
         18     3
1234123   1     1
          4     2

Run Code Online (Sandbox Code Playgroud)

现在我想找到每个用户拥有最多的标签。如下：

userId   tag
3122471  18
1234123 …

Run Code Online (Sandbox Code Playgroud)

python data-analysis dataframe python-3.x pandas

wei*_*god

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

使用基于训练数据集的模型预测测试数据？

我是数据科学和分析的新手。在 Kaggle 上研究了很多内核之后，我制作了一个预测房产价格的模型。我已经使用我的训练数据测试了这个模型，但现在我想在我的测试数据上运行它。我有一个 test.csv 文件，我想使用它。我怎么做？我之前对训练数据集做了什么：

#loading my train dataset into python
train = pd.read_csv('/Users/sohaib/Downloads/test.csv')

#factors that will predict the price
train_pr = ['OverallQual','GrLivArea','GarageCars','TotalBsmtSF','FullBath','YearBuilt']

#set my model to DecisionTree
model = DecisionTreeRegressor()

#set prediction data to factors that will predict, and set target to SalePrice
prdata = train[train_pr]
target = train.SalePrice

#fitting model with prediction data and telling it my target
model.fit(prdata, target)

model.predict(prdata.head())

Run Code Online (Sandbox Code Playgroud)

现在我尝试做的是，复制整个代码，并将“train”更改为“test”，将“predate”更改为“testprdata”，我认为它会起作用，但遗憾的是没有。我知道我做错了什么，我不知道那是什么。

python data-analysis scikit-learn data-science

Soh*_*yed

2017 08-15

6
推荐指数

1
解决办法

3万
查看次数

Python & Pandas - pd.Series difference between int32 and int64

I'm starting to learn python, numpy and panda's and I have a really basic question, about sizes.

Please see the next code blocks:

1. Length: 6, dtype: int64

# create a Series from a dict
pd.Series({key: value for key, value in zip('abcdef', range(6))})

Run Code Online (Sandbox Code Playgroud)

vs.

2. Length: 6, dtype: int32

# but why does this generate a smaller integer size???
pd.Series(range(6), index=list('abcdef'))

Run Code Online (Sandbox Code Playgroud)

Question So I think when you put a list, numpy array, dictionary etc. in the pd.Series you will get …

python numpy data-analysis pandas

Mik*_*ers

2019 11-01

6
推荐指数

1
解决办法

1766
查看次数

计算 pandas 数据帧行中的非空单元格并将计数添加为列

使用Python，我想计算pandas 数据框中包含数据的行中的单元格数量，并将计数记录在该行最左边的单元格中。

python data-analysis dataframe pandas

Ati*_*lam

2018 02-21

6
推荐指数

1
解决办法

2万
查看次数

熊猫+ groupby

数据集包含4列,其中name是孩子的名字,yearofbirth表示孩子出生的年份,number表示使用该特定姓名命名的婴儿数.

   For example, entry 1 reads, in the year 1880, 7065 girl children were named Mary.

Run Code Online (Sandbox Code Playgroud)

通过大熊猫,我试图找出每年哪个名字最常用的名字.我的代码

   df.groupby(['yearofbirth']).agg({'number':'max'}).reset_index()

Run Code Online (Sandbox Code Playgroud)

上面的代码部分回答了手头的问题.

我想要名字和最大数字.

python data-analysis pandas pandas-groupby

eag*_*ner

2018 09-20

6
推荐指数

1
解决办法

104
查看次数

所有参数的情节长度应相同

我尝试使用plotly.express 制作条形图，但发现这个问题

所有参数应该具有相同的长度。参数的长度y 是 51，而先前处理的参数 ['x'] 的长度是 4399，这是我的代码

import pandas as pd
import plotly.express as px
df= pd.read_csv('...../datasets-723010-1257097-fatal-police-shootings-data1.csv.xls')
c = df['state'].value_counts()
fig =px.bar(c , x = df['state'])
fig.show()

Run Code Online (Sandbox Code Playgroud)

此数据样本在此处输入图像描述

python data-analysis plotly

saa*_*aas

2020 07-24

6
推荐指数

1
解决办法

2万
查看次数

如何使用 Pandas 进行数据分析（如计数、ucounts、频率）？

我有如下 DataFrame：

df = pd.DataFrame([
    ("i", 1, 'GlIrbixGsmCL'),
    ("i", 1, 'GlIrbixGsmCL'),
    ("i", 1, '3IMR1UteQA'),
    ("c", 1, 'GlIrbixGsmCL'),
    ("i", 2, 'GlIrbixGsmCL'),
], columns=['type', 'cid', 'userid'])

Run Code Online (Sandbox Code Playgroud)

预期输出如：

更多细节：

i_counts, c_counts      => df.groupby(["cid","type"]).size()
i_ucounts, c_ucounts    => df.groupby(["cid","type"])["userid"].nunique()
i_frequency,u_frequency => df.groupby(["cid","type"])["userid"].value_counts()

Run Code Online (Sandbox Code Playgroud)

看起来对我来说有点复杂，如何使用pandas来获得预期的结果？