从csv读取到数据帧pandas python时，dict对象转换为字符串

Question

从csv读取到数据帧pandas python时，dict对象转换为字符串

Nik*_*pta 3 python csv dictionary dataframe pandas

我有一个 csv 文件，它有很多列。一列包含 dict 对象和字符串形式的数据。

例如：列包含如下数据：{"a":5,"b":6,"c":8},"usa","india",{"a":9,"b":10," c":11}

当我使用以下命令将此 csv 读入数据帧时：

df = pd.read_csv(path)

Run Code Online (Sandbox Code Playgroud)

当我检查存储在此特定列中的每个元素的类型时，此列数据被识别为字符串df.applymap(type)。

但是数据在 csv 和数据框中都没有引号。但仍然 dict 对象被转换为字符串并存储在数据帧中。

在检查列的类型时，结果是对象。

请建议如何从 csv 读取到数据帧，以便在此特定列中将 dict 对象识别为 dict 并将字符串识别为字符串。

Answer 1

And*_*den 5

您可以使用以下方法转换应该是字典（或其他类型）的字符串literal_eval：

from ast import literal_eval

def try_literal_eval(s):
    try:
        return literal_eval(s)
    except ValueError:
        return s

Run Code Online (Sandbox Code Playgroud)

现在您可以将其应用于您的 DataFrame：

In [11]: df = pd.DataFrame({'A': ["hello","world",'{"a":5,"b":6,"c":8}',"usa","india",'{"d":9,"e":10,"f":11}']})

In [12]: df.loc[2, "A"]
Out[12]: '{"a":5,"b":6,"c":8}'

In [13]: df
Out[13]:
                       A
0                  hello
1                  world
2    {"a":5,"b":6,"c":8}
3                    usa
4                  india
5  {"d":9,"e":10,"f":11}


In [14]: df.applymap(try_literal_eval)
Out[14]:
                            A
0                       hello
1                       world
2    {'a': 5, 'b': 6, 'c': 8}
3                         usa
4                       india
5  {'d': 9, 'e': 10, 'f': 11}

In [15]: df.applymap(try_literal_eval).loc[2, "A"]
Out[15]: {'a': 5, 'b': 6, 'c': 8}

Run Code Online (Sandbox Code Playgroud)

注意：就其他调用而言，这非常昂贵（在时间上），但是当您处理 DataFrames/Series 中的字典时，您必然会默认返回 python 对象，因此事情会相对缓慢...非规范化可能是一个好主意，即将数据作为列返回，例如使用json_normalize.

归档时间：	8 年，7 月前
查看次数：	1525 次
最近记录：	8 年，7 月前