小编jon*_*nas的帖子

将多个csv文件导入pandas并连接到一个DataFrame中

我想从目录中读取几个csv文件到pandas并将它们连接成一个大的DataFrame.我虽然无法弄明白.这是我到目前为止:

import glob
import pandas as pd

# get data file names
path =r'C:\DRO\DCL_rawdata_files'
filenames = glob.glob(path + "/*.csv")

dfs = []
for filename in filenames:
    dfs.append(pd.read_csv(filename))

# Concatenate all data into one DataFrame
big_frame = pd.concat(dfs, ignore_index=True)
Run Code Online (Sandbox Code Playgroud)

我想在for循环中需要一些帮助???

python csv concatenation dataframe pandas

319
推荐指数
13
解决办法
30万
查看次数

使用直方图的Matplotlib/Pandas错误

我有问题从熊猫系列对象制作直方图,我不明白为什么它不起作用.代码之前运行良好,但现在却没有.

这是我的一些代码(具体来说,我正在尝试制作直方图的pandas系列对象):

type(dfj2_MARKET1['VSPD2_perc'])
Run Code Online (Sandbox Code Playgroud)

输出结果: pandas.core.series.Series

这是我的绘图代码:

fig, axes = plt.subplots(1, 7, figsize=(30,4))
axes[0].hist(dfj2_MARKET1['VSPD1_perc'],alpha=0.9, color='blue')
axes[0].grid(True)
axes[0].set_title(MARKET1 + '  5-40 km / h')
Run Code Online (Sandbox Code Playgroud)

错误信息:

    AttributeError                            Traceback (most recent call last)
    <ipython-input-75-3810c361db30> in <module>()
      1 fig, axes = plt.subplots(1, 7, figsize=(30,4))
      2 
    ----> 3 axes[1].hist(dfj2_MARKET1['VSPD2_perc'],alpha=0.9, color='blue')
      4 axes[1].grid(True)
      5 axes[1].set_xlabel('Time spent [%]')

    C:\Python27\lib\site-packages\matplotlib\axes.pyc in hist(self, x, bins, range, normed,          weights, cumulative, bottom, histtype, align, orientation, rwidth, log, color, label,    stacked, **kwargs)
   8322             # this will automatically overwrite bins,
   8323             # so that …
Run Code Online (Sandbox Code Playgroud)

python matplotlib histogram pandas

68
推荐指数
1
解决办法
7万
查看次数

替换整个DataFrame中的字符串/值

我有一个非常大的数据集,我想用数字替换字符串.我想对数据集进行操作,而不为数据集中的每个键(列)键入映射函数.(类似于fillna方法,但用特定值替换特定字符串).反正有没有这样做?

这是我的数据集的一个例子

data
   resp          A          B          C
0     1       poor       poor       good
1     2       good       poor       good
2     3  very good  very good  very good
3     4       bad        poor       bad 
4     5   very bad   very bad   very bad
5     6       poor       good   very bad
6     7       good       good       good
7     8  very good  very good  very good
8     9       bad        bad    very bad
9    10   very bad   very bad   very bad
Run Code Online (Sandbox Code Playgroud)

期望的结果:

 data
   resp  A  B  C
0      1  3 …
Run Code Online (Sandbox Code Playgroud)

python replace dataframe pandas

45
推荐指数
2
解决办法
8万
查看次数

pandas dataframe创建新列并填充来自相同df的计算值

这是我的df的简化示例:

ds = pd.DataFrame(np.abs(randn(3, 4)), index=[1,2,3], columns=['A','B','C','D'])
ds
      A         B         C         D
1  1.099679  0.042043  0.083903  0.410128
2  0.268205  0.718933  1.459374  0.758887
3  0.680566  0.538655  0.038236  1.169403
Run Code Online (Sandbox Code Playgroud)

我想在行中明智地总结数据:

ds['sum']=ds.sum(axis=1)
ds
      A         B         C         D       sum
1  0.095389  0.556978  1.646888  1.959295  4.258550
2  1.076190  2.668270  0.825116  1.477040  6.046616
3  0.245034  1.066285  0.967124  0.791606  3.070049
Run Code Online (Sandbox Code Playgroud)

现在,我的问题来了!我想创建4个新列,并计算每行中总和(总和)的百分比值.因此,第一个新列中的第一个值应为(0.095389/4.258550),第二个新列中的第一个值(0.556978/4.258550)......依此类推......请帮助

python calculated-columns pandas

32
推荐指数
2
解决办法
8万
查看次数

Python Matplotlib维恩图

我想绘制属于某些组的变量.

假设我有6个变量,我想要分成这3组,并绘制像维恩图.我想将变量名称注释为三个气泡.
在这个简单的例子中,我们可以说1个变量在组1中,3个变量在组2中,2个变量在组3中.

任何人都可以帮我一个简单的例子来说明如何在matplotlib中做到这一点?

python matplotlib venn-diagram matplotlib-venn

32
推荐指数
3
解决办法
3万
查看次数

python pandas用数字替换数据帧中的字符串

无论如何使用映射函数或更好的东西来替换整个数据帧中的值?

我只知道如何在系列上执行映射.

我想用'数'替换'tesst'和'set'列中的字符串,例如set = 1,test = 2

以下是我的数据集示例:(原始数据集非常大)

ds_r
  respondent  brand engine  country  aware  aware_2  aware_3  age tesst   set
0          a  volvo      p      swe      1        0        1   23   set   set
1          b  volvo   None      swe      0        0        1   45   set   set
2          c    bmw      p       us      0        0        1   56  test  test
3          d    bmw      p       us      0        1        1   43  test  test
4          e    bmw      d  germany      1        0        1   34   set   set
5          f   audi      d  germany      1 …
Run Code Online (Sandbox Code Playgroud)

python replace dataframe pandas

31
推荐指数
5
解决办法
5万
查看次数

将多个excel文件导入python pandas并将它们连接成一个数据帧

我想从目录中读取几个excel文件到pandas并将它们连接成一个大数据帧.我虽然无法弄明白.我需要一些关于for循环的帮助并构建一个连接的数据帧:这是我到目前为止所拥有的:

import sys
import csv
import glob
import pandas as pd

# get data file names
path =r'C:\DRO\DCL_rawdata_files\excelfiles'
filenames = glob.glob(path + "/*.xlsx")

dfs = []

for df in dfs: 
    xl_file = pd.ExcelFile(filenames)
    df=xl_file.parse('Sheet1')
    dfs.concat(df, ignore_index=True)
Run Code Online (Sandbox Code Playgroud)

python excel concatenation pandas

16
推荐指数
4
解决办法
5万
查看次数

大熊猫用类别颜色绘制数据框条形图

我想用pandas绘制一个不同颜色的条形图,用于列中的类别.

这是一个简单的例子:(索引是可变的)

df:
         value   group
variable               
a             10      1
b              9      1
c              8      1
d              7      2
f              6      2
g              5      3
h              4      3
Run Code Online (Sandbox Code Playgroud)

我想制作一个带有着色组的条形图.我还想指定颜色.在我的原始数据集中,我有很多goups.有人可以帮我吗?

python plot bar-chart pandas

14
推荐指数
1
解决办法
2万
查看次数

python中ggplot的文档和语法

有没有人知道python中ggplot2的文档?据我所知,语法类似于R语法,但是还有任何信息或代码示例吗?任何教程......?

python ggplot2 python-ggplot

14
推荐指数
1
解决办法
1万
查看次数

使用corrplot时出错

我需要帮助解决使用corrplot的错误消息.

这是我的剧本

install.packages("ggplot2")
install.packages("corrplot")
install.packages("xlsx")

library(ggplot2)
library(corrplot)
library(xlsx)

#set working dir
setwd("C:/R")
#read xlsx data into R
df <- read.xlsx("TP_diff_frame.xlsx",1)
#set column as index
rownames(df) <- df$country
#remove column
df2<-subset(df, select = -c(country) )
#round values to to decimals


corrplot(df2, method="shade",shade.col=NA, tl.col="black", tl.srt=45)
Run Code Online (Sandbox Code Playgroud)

我的df2:

> df2
                     a    b     c     d     e    f    g
Sweden            0.09 0.19  0.00 -0.25 -0.04 0.01 0.00
Germany           0.11 0.19  0.01 -0.35  0.01 0.02 0.01
UnitedKingdom     0.14 0.21  0.03 -0.32 -0.05 0.00 0.00
RussianFederation 0.30 0.26 …
Run Code Online (Sandbox Code Playgroud)

plot r dataframe r-corrplot

14
推荐指数
1
解决办法
2万
查看次数