Pyt*_*der 3 python excel pandas
我正在使用 pandas 将 csv 文件导入到 python 数据框中。PFA 我的代码如下:
import pandas as pd
df=pd.read_csv('C:/Users/Administrator/Desktop/NSE_Normalize.csv')
Run Code Online (Sandbox Code Playgroud)
当我使用上面的代码导入时,没有给出错误,但出现警告,如下所示:
Columns (0,1,3) have mixed types.Specify dtype option on import or set low_memory=False.
Run Code Online (Sandbox Code Playgroud)
通过参考答案Pandas read_csv low_memory and dtype options我开始知道为什么会发生这种情况以及我的文件有不明确的 dtypes。
我能够通过使用来解决这个问题:
df = pd.read_csv("C:/Users/Administrator/Desktop/NSE_Normalize.csv",sep=',', error_bad_lines=False, index_col=False, dtype='unicode') as mentioned on [Specify dtype option on import or set low_memory=False][2]
Run Code Online (Sandbox Code Playgroud)
但是当我导入相同的文件作为 Excel 工作簿(.xlsx 文件)时。不会发生此错误。与 csv 对应项相比,Sure 需要更长的时间才能导入,但不会显示错误。
因此,从上面的讨论中我是否可以知道为什么在 python 中加载 .xlsx 文件的时间比其 .csv 对应的时间长?另外,何时使用 .csv 导入和 .xlsx 导入?
这是我导入的文件:
Excel 文件“.xlsx”文件具有各种格式/XML 代码pandas必须“切碎”才能获取数据(考虑可用于转换和可视化 Excel 中无法保存的数据的所有功能)为 .csv,保存后会自动删除所有功能)。另一方面,“.csv”文件非常原始(如 .txt 文件),因此 pandas 不必费尽心思地处理所有这些额外的疯狂内容来获取数据。
从这个有用的链接:查看“xml”文件的代码是什么样的(这是“.xlsx”格式的基础)
看看pandas要获取数据“A1”、“B1”等需要经历什么。因此,.csv如果文件满足您的所有要求,您应该始终努力从文件中提取数据。任何数据类型格式化计算等都应尝试在pandas. 我在这里专门谈论读取数据。

至于您遇到问题的原因,无法从您的屏幕截图中看出。除了在阅读时尝试指定dtypes、low_memory或 之外,还有一些可以提供帮助的事情: parse_dates
df['numcol'] = pd.to_numeric(df['numcol'], errors='coerce')
df['datecol'] = pd.to_datetime(df['datecol'], errors='coerce')
df['datecol'] = pd.to_datetime(df['datecol'], dayfirst=True, errors='coerce') #UK / European dates
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
7493 次 |
| 最近记录: |