与PANDAS合作,尝试将数据框汇总为某些类别的计数,以及这些类别的均值情绪分数.
有完整的字符串表有不同的情绪分数,我想通过说出他们有多少帖子以及这些帖子的平均情绪来对每个文本来源进行分组.
我的(简化)数据框如下所示:
source text sent
--------------------------------
bar some string 0.13
foo alt string -0.8
bar another str 0.7
foo some text -0.2
foo more text -0.5
Run Code Online (Sandbox Code Playgroud)
这个输出应该是这样的:
source count mean_sent
-----------------------------
foo 3 -0.5
bar 2 0.415
Run Code Online (Sandbox Code Playgroud)
答案在某处:
df['sent'].groupby(df['source']).mean()
Run Code Online (Sandbox Code Playgroud)
然而,只给出每个来源,它的意思是,没有列标题.
提前致谢!
我在Pandas中有一个数据框,其中包含一组产品评论,适用于来自各个评论网站的略有不同的产品.每次审核都与产品相关,并带有数字分数.评论还有一个文本字段,其中包含每个评论的文本(相当长的字段),以及从中获取的源站点的名称.例如
product score source text
------------------------------------------
K3 4.0 site1 long-text
P2 2.0 site7 text
K3 3.0 site2 paragraph
i7 1.0 site4 review-text
P2 5.0 site2 more-text
K3 4.0 site5 texts-on-text
Run Code Online (Sandbox Code Playgroud)
我想在一个新表中将每个产品组合在一起,以便我可以分析每个产品的评估方式.我最终会进行文本分析(POS标记等),以了解每种产品的评估方式.
我想首先创建一个新的数据框,按"产品"分组.我想计算每个产品在"计数"列中的评论数量.将有一列计算分组时"得分"的平均值.还将有一个列合并每个产品的文本字段,以便可以作为整体而不是单独分析审阅文本.例如
product mean_score count text_combined
---------------------------------------------------
K3 3.66 3 long-text, paragraph, texts-on-text
P2 3.5 2 text, more-text
i7 1.0 1 review-text
Run Code Online (Sandbox Code Playgroud)
此特定分析中不需要"源"列,但我已将其包含在内,以显示数据框中还有其他列.
从中我可以更轻松地分解每个产品的文本,而不是单独的评论.
在此先感谢Stack!
在Python Pandas中,我有一个包含以下格式的列和记录的数据框:
text source senti
-------------------------------
great food site1 0.6
awful staff site4 -0.4
good chef site8 0.4
average food site6 0.05
bad food site2 -0.8
Run Code Online (Sandbox Code Playgroud)
文本列基本上是对某事的描述或意见.我想得出关于数据集的平均情绪的一些结论,输出就像这样.
sentiment count
----------------
positive 2
neutral 1
negative 2
Run Code Online (Sandbox Code Playgroud)
我们将'senti'计为正数,负数或中性.
在满足以下条件时,情绪被计为每个组:
非常感谢提前
我正在使用一个名为 eventregistry 的模块,它是一个用于使用外部 API 的工具包。
当与服务器建立连接时,我在他们的模块上调用这个方法(作为 e_r 导入)。
er = e_r.EventRegistry(apiKey="1234")
Run Code Online (Sandbox Code Playgroud)
然后模块方法在内部打印:
using user provided API key for making requests
Event Registry host: http://eventregistry.org
Run Code Online (Sandbox Code Playgroud)
这只会阻塞我的控制台,当我的数据源之一抛出错误时,我只想打印它。我正在向这个数据源发出多个请求,它在控制台中真的变得非常混乱!
有没有人知道某种“stopPrint()”函数,它允许我调用方法和运行函数,但停止它们打印到控制台?
例如
er = stopPrint(e_r.EventRegistry(apiKey="1234"))
Run Code Online (Sandbox Code Playgroud) NiFi甚至无法启动,我想我犯了一个非常明显的错误,但是我从这里下载的解压目录中没有立即出现bin文件夹
显然有一个有点愚蠢的问题,感谢您的帮助。nifi-nar-bundles 中嵌套有一个 bin 文件夹,但 .bat 不运行。
python ×4
pandas ×3
aggregate ×2
dataframe ×2
group-by ×2
apache-nifi ×1
console ×1
python-2.7 ×1