我想从目录中读取几个csv文件到pandas并将它们连接成一个大的DataFrame.我虽然无法弄明白.这是我到目前为止:
import glob
import pandas as pd
# get data file names
path =r'C:\DRO\DCL_rawdata_files'
filenames = glob.glob(path + "/*.csv")
dfs = []
for filename in filenames:
dfs.append(pd.read_csv(filename))
# Concatenate all data into one DataFrame
big_frame = pd.concat(dfs, ignore_index=True)
Run Code Online (Sandbox Code Playgroud)
我想在for循环中需要一些帮助???
我有问题从熊猫系列对象制作直方图,我不明白为什么它不起作用.代码之前运行良好,但现在却没有.
这是我的一些代码(具体来说,我正在尝试制作直方图的pandas系列对象):
type(dfj2_MARKET1['VSPD2_perc'])
Run Code Online (Sandbox Code Playgroud)
输出结果:
pandas.core.series.Series
这是我的绘图代码:
fig, axes = plt.subplots(1, 7, figsize=(30,4))
axes[0].hist(dfj2_MARKET1['VSPD1_perc'],alpha=0.9, color='blue')
axes[0].grid(True)
axes[0].set_title(MARKET1 + ' 5-40 km / h')
Run Code Online (Sandbox Code Playgroud)
错误信息:
AttributeError Traceback (most recent call last)
<ipython-input-75-3810c361db30> in <module>()
1 fig, axes = plt.subplots(1, 7, figsize=(30,4))
2
----> 3 axes[1].hist(dfj2_MARKET1['VSPD2_perc'],alpha=0.9, color='blue')
4 axes[1].grid(True)
5 axes[1].set_xlabel('Time spent [%]')
C:\Python27\lib\site-packages\matplotlib\axes.pyc in hist(self, x, bins, range, normed, weights, cumulative, bottom, histtype, align, orientation, rwidth, log, color, label, stacked, **kwargs)
8322 # this will automatically overwrite bins,
8323 # so that …Run Code Online (Sandbox Code Playgroud) 我有一个非常大的数据集,我想用数字替换字符串.我想对数据集进行操作,而不为数据集中的每个键(列)键入映射函数.(类似于fillna方法,但用特定值替换特定字符串).反正有没有这样做?
这是我的数据集的一个例子
data
resp A B C
0 1 poor poor good
1 2 good poor good
2 3 very good very good very good
3 4 bad poor bad
4 5 very bad very bad very bad
5 6 poor good very bad
6 7 good good good
7 8 very good very good very good
8 9 bad bad very bad
9 10 very bad very bad very bad
Run Code Online (Sandbox Code Playgroud)
期望的结果:
data
resp A B C
0 1 3 …Run Code Online (Sandbox Code Playgroud) 这是我的df的简化示例:
ds = pd.DataFrame(np.abs(randn(3, 4)), index=[1,2,3], columns=['A','B','C','D'])
ds
A B C D
1 1.099679 0.042043 0.083903 0.410128
2 0.268205 0.718933 1.459374 0.758887
3 0.680566 0.538655 0.038236 1.169403
Run Code Online (Sandbox Code Playgroud)
我想在行中明智地总结数据:
ds['sum']=ds.sum(axis=1)
ds
A B C D sum
1 0.095389 0.556978 1.646888 1.959295 4.258550
2 1.076190 2.668270 0.825116 1.477040 6.046616
3 0.245034 1.066285 0.967124 0.791606 3.070049
Run Code Online (Sandbox Code Playgroud)
现在,我的问题来了!我想创建4个新列,并计算每行中总和(总和)的百分比值.因此,第一个新列中的第一个值应为(0.095389/4.258550),第二个新列中的第一个值(0.556978/4.258550)......依此类推......请帮助
我想绘制属于某些组的变量.
假设我有6个变量,我想要分成这3组,并绘制像维恩图.我想将变量名称注释为三个气泡.
在这个简单的例子中,我们可以说1个变量在组1中,3个变量在组2中,2个变量在组3中.
任何人都可以帮我一个简单的例子来说明如何在matplotlib中做到这一点?
无论如何使用映射函数或更好的东西来替换整个数据帧中的值?
我只知道如何在系列上执行映射.
我想用'数'替换'tesst'和'set'列中的字符串,例如set = 1,test = 2
以下是我的数据集示例:(原始数据集非常大)
ds_r
respondent brand engine country aware aware_2 aware_3 age tesst set
0 a volvo p swe 1 0 1 23 set set
1 b volvo None swe 0 0 1 45 set set
2 c bmw p us 0 0 1 56 test test
3 d bmw p us 0 1 1 43 test test
4 e bmw d germany 1 0 1 34 set set
5 f audi d germany 1 …Run Code Online (Sandbox Code Playgroud) 我想从目录中读取几个excel文件到pandas并将它们连接成一个大数据帧.我虽然无法弄明白.我需要一些关于for循环的帮助并构建一个连接的数据帧:这是我到目前为止所拥有的:
import sys
import csv
import glob
import pandas as pd
# get data file names
path =r'C:\DRO\DCL_rawdata_files\excelfiles'
filenames = glob.glob(path + "/*.xlsx")
dfs = []
for df in dfs:
xl_file = pd.ExcelFile(filenames)
df=xl_file.parse('Sheet1')
dfs.concat(df, ignore_index=True)
Run Code Online (Sandbox Code Playgroud) 我想用pandas绘制一个不同颜色的条形图,用于列中的类别.
这是一个简单的例子:(索引是可变的)
df:
value group
variable
a 10 1
b 9 1
c 8 1
d 7 2
f 6 2
g 5 3
h 4 3
Run Code Online (Sandbox Code Playgroud)
我想制作一个带有着色组的条形图.我还想指定颜色.在我的原始数据集中,我有很多goups.有人可以帮我吗?
有没有人知道python中ggplot2的文档?据我所知,语法类似于R语法,但是还有任何信息或代码示例吗?任何教程......?
我需要帮助解决使用corrplot的错误消息.
这是我的剧本
install.packages("ggplot2")
install.packages("corrplot")
install.packages("xlsx")
library(ggplot2)
library(corrplot)
library(xlsx)
#set working dir
setwd("C:/R")
#read xlsx data into R
df <- read.xlsx("TP_diff_frame.xlsx",1)
#set column as index
rownames(df) <- df$country
#remove column
df2<-subset(df, select = -c(country) )
#round values to to decimals
corrplot(df2, method="shade",shade.col=NA, tl.col="black", tl.srt=45)
Run Code Online (Sandbox Code Playgroud)
我的df2:
> df2
a b c d e f g
Sweden 0.09 0.19 0.00 -0.25 -0.04 0.01 0.00
Germany 0.11 0.19 0.01 -0.35 0.01 0.02 0.01
UnitedKingdom 0.14 0.21 0.03 -0.32 -0.05 0.00 0.00
RussianFederation 0.30 0.26 …Run Code Online (Sandbox Code Playgroud) python ×9
pandas ×7
dataframe ×4
matplotlib ×2
plot ×2
replace ×2
bar-chart ×1
csv ×1
excel ×1
ggplot2 ×1
histogram ×1
r ×1
r-corrplot ×1
venn-diagram ×1