使用 pandas 时值的长度与索引的长度不匹配

Question

使用 pandas 时值的长度与索引的长度不匹配

使用 Pandas 时，我收到“ValueError：值的长度与索引的长度不匹配”。我正在使用 Pandas 的 pd.read_excel 方法从 Excel 电子表格中读取数据。然后我使用 Pandas 的过滤方法过滤数据。我创建了“dataSubset”来表示过滤后的数据。我使用“dataSubset”创建几个“平均值”列，分别表示多列的平均值。然后，我创建“finalData”，它表示将所有计算出的平均值列连接在一起的 pd.concat 函数。这段代码运行完美；但是，如果我取消注释任何其他列，代码就会崩溃并给出上述错误。

我究竟做错了什么？只要我不连接超过它想要的数量，它就可以工作。

帮助。

import pandas as pd

dataIn = pd.read_excel('IDT/IDT-B.xlsx')

dataSubset = dataIn.filter([
    "First Name",
    "Last Name",
    "2.14.2 Control Structures Example Quiz",
    "2.14.4 Random Hurdles",
    "2.15.2 Quiz: Which Control Structure?",
    "2.16.2 How to Indent Your Code Quiz",
    "2.16.4 Diagonal",
    "2.16.5 Staircase",
    "2.17.2 Debugging Basics",
    "2.17.6 Debugging with Error Messages",
    "3.2.6 Programming with Karel Quiz",
    "5.1.2 Hello World Quiz",
    "5.1.4 Your Name and Hobby",
    "5.2.2 Variables Quiz",
    "5.2.4 Daily Activities",
    "5.3.2 User Input Quiz",
    "5.3.4 Dinner Plans",
    "5.4.2 Basic Math in JavaScript Quiz",
    "5.4.6 T-Shirt Shop",
    "5.4.7 Running Speed",
    "5.5.2 JavaScript Graphics Quiz",
    "5.5.8 Flag of the Netherlands",
    "5.5.9 Snowman",
    "5.6.2 Using RGB to Create Colors",
    "5.6.4 Exploring RGB",
    "5.6.5 Making Yellow",
    "5.6.6 Rainbow",
    "5.6.7 Create a Color Image!",
    "6.1.1 Ghost",
    "6.1.2 Fried Egg",
    "6.1.3 Draw Something",
    "6.1.4 JavaScript and Graphics Quiz"

], axis=1)
# If any of these dataframes are uncommented, the code blows up.

# dataSubset['aver_2.14'] = dataSubset[["2.14.2 Control Structures Example Quiz",
#                                       "2.14.4 Random Hurdles"]],
# dataSubset['aver_2.15'] = dataSubset[["2.15.2 Quiz: Which Control Structure?"]],
# #
# # dataSubset['aver_2.16'] = dataSubset[["2.16.2 How to Indent Your Code Quiz",
# #                                       "2.16.4 Diagonal"]],
# #
# # dataSubset['aver_2.17'] = dataSubset[["2.17.2 Debugging Basics",
# #                                       "2.17.6 Debugging with Error Messages", ]]

dataSubset['unit_quiz_326'] = dataSubset[["3.2.6 Programming with Karel Quiz"]]

dataSubset['aver_5.1'] = dataSubset[["5.1.2 Hello World Quiz",
                                    "5.1.4 Your Name and Hobby"]].mean(axis=1)

dataSubset['aver_5.2'] = dataSubset[["5.2.2 Variables Quiz",
                                    "5.2.4 Daily Activities"]].mean(axis=1)

dataSubset['aver_5.3'] = dataSubset[["5.3.2 User Input Quiz",
                                    "5.3.4 Dinner Plans"]].mean(axis=1)

dataSubset['aver_5.4'] = dataSubset[["5.4.2 Basic Math in JavaScript Quiz",
                                    "5.4.6 T-Shirt Shop",
                                    "5.4.7 Running Speed"]].mean(axis=1)

dataSubset['aver_5.5'] = dataSubset[["5.5.2 JavaScript Graphics Quiz",
                                    "5.5.8 Flag of the Netherlands",
                                    "5.5.9 Snowman"]].mean(axis=1)

dataSubset['aver_5.6'] = dataSubset[["5.6.2 Using RGB to Create Colors",
                                    "5.6.4 Exploring RGB",
                                    "5.6.5 Making Yellow",
                                    "5.6.6 Rainbow",
                                    "5.6.7 Create a Color Image!"]].mean(axis=1)

dataSubset['aver_6.1'] = dataSubset[["6.1.1 Ghost",
                                    "6.1.2 Fried Egg",
                                    "6.1.3 Draw Something",
                                    "6.1.4 JavaScript and Graphics Quiz"]].mean(axis=1)

finalData = pd.concat([dataSubset['First Name'],
                       dataSubset['Last Name'],
                       dataSubset['unit_quiz_326'],
                       # dataSubset['aver_2.14'],
                       # dataSubset['aver_2.15'],
                       # dataSubset['aver_2.16'],
                       # dataSubset['aver_2.17'],
                       dataSubset['aver_5.1'],
                       dataSubset['aver_5.2'],
                       dataSubset['aver_5.3'],
                       dataSubset['aver_5.4'],
                       dataSubset['aver_5.5'],
                       dataSubset['aver_5.6'],
                       dataSubset['aver_6.1']], axis=1)

finalData.to_excel('output/gradesOut.xlsx')

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ant*_*der 6

原因`ValueError`

基于这一行：

dataSubset['aver_2.15'] = dataSubset[["2.15.2 Quiz: Which Control Structure?"]],

Run Code Online (Sandbox Code Playgroud)

赋值语句的右侧有一个逗号，该行相当于：

dataSubset['aver_2.15'] = (dataSubset[["2.15.2 Quiz: Which Control Structure?"]], )

Run Code Online (Sandbox Code Playgroud)

基本上，该行尝试执行以下分配：

pandas.Series <-- Tuple[pandas.DataFrame]  # tuple with length 1

Run Code Online (Sandbox Code Playgroud)

因此左侧（赋值目标）和右侧（应分配给目标的对象）之间存在长度不匹配：

左侧：长度Series（认为“行数”）
右侧：1个

为什么是pandas.Series在左边，却pandas.DataFrame在右边呢？

如果使用单方括号，您会得到一个Series对象：s = df['a']
如果使用双方括号，您会得到一个DataFrame对象：df2 = df[['a'']]

可能的解决方案

您似乎想将多个列合并为一个新列。在其中一个工作行中，您可以使用以下方法获取两列的平均值.mean(axis=1)：

dataSubset['aver_5.1'] = dataSubset[["5.1.2 Hello World Quiz",
                                    "5.1.4 Your Name and Hobby"]].mean(axis=1)

Run Code Online (Sandbox Code Playgroud)

因此，要修复您的代码，您可能需要：

删除尾随逗号
mean()在选择多列的行中添加或其他一些“组合功能”

归档时间：	3 年，11 月前
查看次数：	6990 次
最近记录：	3 年，11 月前

使用 pandas 时值的长度与索引的长度不匹配

原因ValueError

可能的解决方案

原因`ValueError`