我有一只熊猫,其格式如下:
title | decision | Time submitted
Book1 | 1 | 1486507594
Book1 | 2 | 1485450353
Run Code Online (Sandbox Code Playgroud)
我想做的是找到决策 = 1 的书籍的平均提交时间,然后找到决策 = 2 的书籍的平均提交时间。我尝试使用:
df_avg.loc[df_avg['decision'] == 2, 'submitted'].sum()
df_avg.loc[df_avg['decision'] == 1, 'submitted'].sum()
Run Code Online (Sandbox Code Playgroud)
但它有时不起作用。我什至尝试在使用日期时间将时间转换为日期和时间之前和之后执行上述操作。任何关于如何做到这一点的想法将不胜感激。
我有兴趣使用来自几个不同 Pandas 数据框的数据绘制时间序列。我知道如何为单个时间序列绘制数据,我知道如何绘制子图,但是我如何设法从单个图中的多个不同数据框中进行绘制?我在下面有我的代码。基本上我正在做的是我正在扫描一个包含 json 文件的文件夹并将该 json 文件解析为一个熊猫,以便我可以绘图。当我运行此代码时,它仅从其中一只熊猫而不是创建的十只熊猫进行绘图。我知道创建了 10 个熊猫,因为我有一个打印语句来确保它们都是正确的。
import sys, re
import numpy as np
import smtplib
import matplotlib.pyplot as plt
from random import randint
import csv
import pylab as pl
import math
import pandas as pd
from pandas.tools.plotting import scatter_matrix
import argparse
import matplotlib.patches as mpatches
import os
import json
parser = argparse.ArgumentParser()
parser.add_argument('-file', '--f', help = 'folder where JSON files are stored')
if len(sys.argv) == 1:
parser.print_help()
sys.exit(1)
args = parser.parse_args()
dat = {}
i = 0 …
Run Code Online (Sandbox Code Playgroud)