小编har*_*pan的帖子

将 json 文件读入 pandas 数据帧时解码“字符串”错误时出现不匹配的“””

我正在尝试使用 pd.read_json() 将亚马逊评论数据加载到 pandas dataframe（这是一个 JSON 文件）中，我收到以下错误Unmatched ''"' when when decoding 'string'.我正在使用 jupyter 笔记本

数据格式：

{"reviewerID": "AGL65XWV7MH3C", "asin": "B003FMUVKO", "reviewerName": "William B. Bebout \"Acknud\"", "helpful": [0, 1], "reviewText": "Too short. I would have rated it higher if it was long enough to hold my attention! It did have significant violence but not much else.", "overall": 3.0, "summary": "Short", "unixReviewTime": 1304985600, "reviewTime": "05 10, 2011"}

Run Code Online (Sandbox Code Playgroud)

Python代码：

data =pd.read_json('sample_data.json', lines=True)

Run Code Online (Sandbox Code Playgroud)

python pandas jupyter-notebook

abh*_*bhi

2018 04-29

5
推荐指数

1
解决办法

1万
查看次数

Display matplotlib graph in browser

I am using matplotlib library of python for plotting graphs. My program is to detect the outliers in the system. I am making an interface for this. I have to show this graph in browser on clicking the button. Here is my php file code :-

<?php
    if (isset($_POST['button']))
    {
         echo shell_exec("python3 /var/www/html/python/anomalies.py 2>&1");
    }
?>
<html>

<body>
<center>


    <form method="post">
    <table>
        <tr>
            <td>
                Enter CSV file path:
            </td>
            <td>
                <input type="text" name="path">
            </td>
        </tr>
    </table>
    <p>
        <button name="button">Identify Anomalies</button> …

Run Code Online (Sandbox Code Playgroud)

python matplotlib

hit*_*ttt

2018 04-10

4
推荐指数

1
解决办法

1633
查看次数

如何使用循环将行除以前一行的内容

使用pandas DataFrame,我想取每个第i行并将其除以第i-1行.我想使用矢量化(即,不用于循环).

例如,如果我有以下DataFrame:

Run Code Online (Sandbox Code Playgroud)

我最终会:

Run Code Online (Sandbox Code Playgroud)

NB除法运算使用旧表值,而不是更新的表值.

PS抱歉格式不好!

python numpy pandas

Pob*_*sig

2018 06-04

3
推荐指数

1
解决办法

62
查看次数

将组折叠成一行 Pandas 数据框

我有一个如下的数据框：

         id                     timestamp            name
         1                  2018-01-23 15:49:53     "aaa"
         1                  2018-01-23 15:54:56     "bbb"
         1                  2018-01-23 15:49:57     "bbb"
         1                  2018-01-23 15:49:54     "ccc"

Run Code Online (Sandbox Code Playgroud)

这是我的数据中的一组 id 示例。我有几组ID。我想要做的是将每个组折叠成一行，但根据时间戳按时间顺序排列，例如像这样

         id                       name   
          1                   aaa->ccc->bbb->bbb

Run Code Online (Sandbox Code Playgroud)

name 中的值按时间顺序排列，因为它们与时间戳一起出现。关于这个的任何指示？

python pandas

Cyb*_*unk

2018 06-07

3
推荐指数

1
解决办法

1878
查看次数

使用 pandas 查找数据框列中的前 3 个

我有一个时间序列数据集，如下所示：

Date        Newspaper   City1    City2   Region1Total   City3   City4  Region2Total
2017-12-01  NewsPaper1  231563   8696    240259         21072   8998   30070
2017-12-01  NewsPaper2  173009   12180   185189         28910   5550   34460
2017-12-01  NewsPaper3  40511    4600    45111          5040    3330   8370
2017-12-01  NewsPaper4  37770    2980    40750          6520    1880   8400
2017-12-01  NewsPaper5  5176     900     6076           1790    5000   6790
2017-12-01  NewsPaper6  137650   8025    145675         25300  11000   36300
2017-12-01  Total       637547   38201   675748         91032  36558   127590

2018-01-01  NewsPaper1  231295   8391    239686         8790   21176   29966
2018-01-01  NewsPaper2  169937   12130   182067         7890   28850 …

Run Code Online (Sandbox Code Playgroud)

python pandas

Sri*_*til

2018 06-15

3
推荐指数

1
解决办法

3305
查看次数

熊猫：遍历各列并从一列开始

有谁知道如何为列合并forloop但从任何列开始？（这种情况的第三个）

可以说这是数据帧：

spice smice skice bike dike mike 
1     23     35    34   34   56 
135   34     23    21   56   34
231   12     67    21   62   75

Run Code Online (Sandbox Code Playgroud)

我想通过迭代skice，自行车，堤防和Mike 只

python dataframe pandas

bob*_*o T

2018 07-19

3
推荐指数

1
解决办法

8218
查看次数

熊猫在循环中设置数据帧的名称

我想创建多个名称与列之一中的值相同的数据框。我希望这段代码像这样工作：

import pandas as pd

data=pd.read_csv('athlete_events.csv')


Sports = data.Sport.unique()

for S in Sports:
    name=str(S)
    name=data.loc[data['Sport']==S]

Run Code Online (Sandbox Code Playgroud)

python foreach dataframe pandas

Amm*_*mon

2018 08-01

1
推荐指数

1
解决办法

4453
查看次数

将字符串转换为dataframe,以冒号分隔

我有一个字符串,来自一篇有几百个句子的文章.我想将字符串转换为数据帧,每个句子作为一行.例如,

data = 'This is a book, to which I found exciting. I bought it for my cousin. He likes it.'

Run Code Online (Sandbox Code Playgroud)

我希望它变成:

This is a book, to which I found exciting.
I bought it for my cousin.
He likes it.

Run Code Online (Sandbox Code Playgroud)

作为一个python新手,这是我试过的:

import pandas as pd
data_csv = StringIO(data)
data_df = pd.read_csv(data_csv, sep = ".")

Run Code Online (Sandbox Code Playgroud)

使用上面的代码,所有句子都成为列名.我实际上想要它们在一列的行中.

python pandas

Rog*_*ger

2018 04-09

0
推荐指数

1
解决办法

155
查看次数

如何在seaborn中的计数图上设置自定义颜色

我创建了一组遵循特定配色方案的雨云图分布（来自seaborn的Set2）。我想让我的计数图与列出的组的颜色相匹配（例如：饮食组的男性和女性计数为绿色，mod-pa 的 m:f 计数为粉红色等）。但是我无法将调色板与 x 变量和色调对齐。看来 countplot 只会根据色调着色。

雨云图的配色方案条形图的配色方案

我尝试过使用 set_colors 来操作哪些栏来改变颜色，我也尝试过根据如下条件映射颜色，但似乎没有任何效果。

ax = sns.countplot(x="Group", hue="Sex", data=df)
ax[0].set_color('r')

TypeError: 'AxesSubplot' object does not support indexing


value=(df['Group']=='DIET') & (df['Sex']=='Female')

df['color']= np.where( value==True , "#9b59b6", "#3498db")

ax = sns.countplot(x="Group", hue="Sex", data=df, color=df['color'])

TypeError: 'Series' objects are mutable, thus they cannot be hashed

Run Code Online (Sandbox Code Playgroud)

完整代码

import pandas as pd

import numpy as np

import seaborn as sns

df = pd.DataFrame({"Sex" : np.random.choice(["Male",  "Female"], size=1310, p=[.65, .35]),
                   "Group" : np.random.choice(["DIET", "MOD-PA", "HIGH-PA"],size=1310)})

# Unique …

Run Code Online (Sandbox Code Playgroud)

python colors matplotlib pandas seaborn

ale*_*ter

2019 08-09

0
推荐指数

1
解决办法

3万
查看次数