小编n3a*_*e3r的帖子

使用 pandas 计算群聊数据集中三向对话的数量

我想计算数据集中发生的三向对话的数量。聊天group_x可以由多个成员组成。

什么是三方对话？

第一种方式 - red_x 在 group_x 中发送消息。
第二种方式 - green_x 在同一组_x 中回复。
第三种方式 - red_x 在同一个 group_x 中发送回复。

这可以称为三方对话。

序列必须恰好是 red_#、green_#、red_#。

什么是接触点？

接触点 1 - red_x 的第一条消息。
接触点 2 - green_x 的第一条消息。
接触点 3 - red_x 的第二条消息。

用于轻松生成我正在使用的示例数据集的代码。

import pandas as pd
from pandas import Timestamp

t1_df = pd.DataFrame({'from_red': [True, False, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, False, True], 
              'sent_time': [Timestamp('2021-05-01 06:26:00'), Timestamp('2021-05-04 10:35:00'), …

Run Code Online (Sandbox Code Playgroud)

python group-by pandas

n3a*_*e3r

2022 11-03

6
推荐指数

1
解决办法

195
查看次数

当方程也发生变化时循环遍历成排的 pandas

我需要忽略时间戳并以这种方式循环遍历行。

import pandas as pd
import numpy as np

time = ['11:50', '12:50', '13:50']
data_1 = {'time': time,
          'n1': [1, 5, 8],
          'n2': [2, 6 ,7],
          'n3': [3, 7 ,6],
          'n4': [4, 8, 5],
        }

df1 = pd.DataFrame(data = data_1)
df1

Run Code Online (Sandbox Code Playgroud)

我正在尝试乘以：