小编Lew*_*son的帖子

Pandas Groupby:数量和平均值相结合

与PANDAS合作,尝试将数据框汇总为某些类别的计数,以及这些类别的均值情绪分数.

有完整的字符串表有不同的情绪分数,我想通过说出他们有多少帖子以及这些帖子的平均情绪来对每个文本来源进行分组.

我的(简化)数据框如下所示:

source    text              sent
--------------------------------
bar       some string       0.13
foo       alt string        -0.8
bar       another str       0.7
foo       some text         -0.2
foo       more text         -0.5
Run Code Online (Sandbox Code Playgroud)

这个输出应该是这样的:

source    count     mean_sent
-----------------------------
foo       3         -0.5
bar       2         0.415
Run Code Online (Sandbox Code Playgroud)

答案在某处:

df['sent'].groupby(df['source']).mean()
Run Code Online (Sandbox Code Playgroud)

然而,只给出每个来源,它的意思是,没有列标题.

提前致谢!

python group-by dataframe python-2.7 pandas

18
推荐指数
3
解决办法
1万
查看次数

计数,平均和连接Pandas Dataframe

我在Pandas中有一个数据框,其中包含一组产品评论,适用于来自各个评论网站的略有不同的产品.每次审核都与产品相关,并带有数字分数.评论还有一个文本字段,其中包含每个评论的文本(相当长的字段),以及从中获取的源站点的名称.例如

product    score    source    text
------------------------------------------
K3         4.0      site1     long-text
P2         2.0      site7     text
K3         3.0      site2     paragraph
i7         1.0      site4     review-text
P2         5.0      site2     more-text
K3         4.0      site5     texts-on-text
Run Code Online (Sandbox Code Playgroud)

我想在一个新表中将每个产品组合在一起,以便我可以分析每个产品的评估方式.我最终会进行文本分析(POS标记等),以了解每种产品的评估方式.

我想首先创建一个新的数据框,按"产品"分组.我想计算每个产品在"计数"列中的评论数量.将有一列计算分组时"得分"的平均值.还将有一个列合并每个产品的文本字段,以便可以作为整体而不是单独分析审阅文本.例如

product    mean_score    count     text_combined
---------------------------------------------------
K3         3.66          3         long-text, paragraph, texts-on-text
P2         3.5           2         text, more-text
i7         1.0           1         review-text
Run Code Online (Sandbox Code Playgroud)

此特定分析中不需要"源"列,但我已将其包含在内,以显示数据框中还有其他列.

从中我可以更轻松地分解每个产品的文本,而不是单独的评论.

在此先感谢Stack!

python aggregate dataframe pandas

2
推荐指数
1
解决办法
61
查看次数

大熊猫计算正/负/中性值

在Python Pandas中,我有一个包含以下格式的列和记录的数据框:

text           source    senti
-------------------------------
great food     site1     0.6
awful staff    site4     -0.4
good chef      site8     0.4
average food   site6     0.05
bad food       site2     -0.8
Run Code Online (Sandbox Code Playgroud)

文本列基本上是对某事的描述或意见.我想得出关于数据集的平均情绪的一些结论,输出就像这样.

sentiment    count
----------------
positive     2
neutral      1
negative     2
Run Code Online (Sandbox Code Playgroud)

我们将'senti'计为正数,负数或中性.

在满足以下条件时,情绪被计为每个组:

  • 积极记录的情绪> 0.1
  • 中性记录的得分> -0.1 AND <0.1
  • 负面记录得分<-0.1

非常感谢提前

python group-by aggregate pandas pandas-groupby

2
推荐指数
1
解决办法
1280
查看次数

停止打印 Python 模块

我正在使用一个名为 eventregistry 的模块,它是一个用于使用外部 API 的工具包。

当与服务器建立连接时,我在他们的模块上调用这个方法(作为 e_r 导入)。

er = e_r.EventRegistry(apiKey="1234")
Run Code Online (Sandbox Code Playgroud)

然后模块方法在内部打印:

using user provided API key for making requests
Event Registry host: http://eventregistry.org
Run Code Online (Sandbox Code Playgroud)

这只会阻塞我的控制台,当我的数据源之一抛出错误时,我只想打印它。我正在向这个数据源发出多个请求,它在控制台中真的变得非常混乱!

有没有人知道某种“stopPrint()”函数,它允许我调用方法和运行函数,但停止它们打印到控制台?

例如

er = stopPrint(e_r.EventRegistry(apiKey="1234"))
Run Code Online (Sandbox Code Playgroud)

python console

1
推荐指数
1
解决办法
3118
查看次数

Nifi 无法启动

NiFi甚至无法启动,我想我犯了一个非常明显的错误,但是我从这里下载的解压目录中没有立即出现bin文件夹

我的文件夹中的文件结构是这样的: 文件结构

显然有一个有点愚蠢的问题,感谢您的帮助。nifi-nar-bundles 中嵌套有一个 bin 文件夹,但 .bat 不运行。

apache-nifi

0
推荐指数
1
解决办法
911
查看次数