列 (0,1,3) 具有混合类型。在导入时指定 dtype 选项或设置 low_memory=False。导入 csv 文件时

Question

列 (0,1,3) 具有混合类型。在导入时指定 dtype 选项或设置 low_memory=False。导入 csv 文件时

我正在使用 pandas 将 csv 文件导入到 python 数据框中。PFA 我的代码如下：

import pandas as pd
df=pd.read_csv('C:/Users/Administrator/Desktop/NSE_Normalize.csv')

Run Code Online (Sandbox Code Playgroud)

当我使用上面的代码导入时，没有给出错误，但出现警告，如下所示：

Columns (0,1,3) have mixed types.Specify dtype option on import or set low_memory=False.

Run Code Online (Sandbox Code Playgroud)

通过参考答案Pandas read_csv low_memory and dtype options我开始知道为什么会发生这种情况以及我的文件有不明确的 dtypes。

我能够通过使用来解决这个问题：

df = pd.read_csv("C:/Users/Administrator/Desktop/NSE_Normalize.csv",sep=',', error_bad_lines=False, index_col=False, dtype='unicode') as mentioned on [Specify dtype option on import or set low_memory=False][2]

Run Code Online (Sandbox Code Playgroud)

但是当我导入相同的文件作为 Excel 工作簿（.xlsx 文件）时。不会发生此错误。与 csv 对应项相比，Sure 需要更长的时间才能导入，但不会显示错误。

因此，从上面的讨论中我是否可以知道为什么在 python 中加载 .xlsx 文件的时间比其 .csv 对应的时间长？另外，何时使用 .csv 导入和 .xlsx 导入？

这是我导入的文件：

Answer 1

Dav*_*son 5

Excel 文件“.xlsx”文件具有各种格式/XML 代码pandas必须“切碎”才能获取数据（考虑可用于转换和可视化 Excel 中无法保存的数据的所有功能）为 .csv，保存后会自动删除所有功能）。另一方面，“.csv”文件非常原始（如 .txt 文件），因此 pandas 不必费尽心思地处理所有这些额外的疯狂内容来获取数据。

从这个有用的链接：查看“xml”文件的代码是什么样的（这是“.xlsx”格式的基础）

看看pandas要获取数据“A1”、“B1”等需要经历什么。因此，.csv如果文件满足您的所有要求，您应该始终努力从文件中提取数据。任何数据类型格式化计算等都应尝试在pandas. 我在这里专门谈论读取数据。

至于您遇到问题的原因，无法从您的屏幕截图中看出。除了在阅读时尝试指定dtypes、low_memory或之外，还有一些可以提供帮助的事情： parse_dates

df['numcol'] = pd.to_numeric(df['numcol'], errors='coerce')
df['datecol'] = pd.to_datetime(df['datecol'], errors='coerce')
df['datecol'] = pd.to_datetime(df['datecol'], dayfirst=True, errors='coerce') #UK / European dates

Run Code Online (Sandbox Code Playgroud)

@user18139您可以使用 df[“col”] = df[“col”].astype(str) 或 df[“col”] = df[“col”].astype(int) 或 df[“col”] =读取 csv 后的 df[“col”].astype(float)，其中“col”是列的名称。作为检查，您可以使用 df.info() 来确认更改后的数据类型。 (2认同)

归档时间：	5 年前
查看次数：	7493 次
最近记录：	5 年前