请看我下面的代码:
import pandas
df = pandas.read_excel('cat.xlsx')
Run Code Online (Sandbox Code Playgroud)
运行后,它给了我以下错误:
Traceback (most recent call last):
File "d:\OneDrive\??\practice.py", line 4, in <module>
df = pandas.read_excel('cat.xlsx')
File "D:\python\lib\site-packages\pandas\util\_decorators.py", line 296, in wrapper
return func(*args, **kwargs)
File "D:\python\lib\site-packages\pandas\io\excel\_base.py", line 304, in read_excel
io = ExcelFile(io, engine=engine)
File "D:\python\lib\site-packages\pandas\io\excel\_base.py", line 867, in __init__
self._reader = self._engines[engine](self._io)
File "D:\python\lib\site-packages\pandas\io\excel\_xlrd.py", line 22, in __init__
super().__init__(filepath_or_buffer)
File "D:\python\lib\site-packages\pandas\io\excel\_base.py", line 353, in __init__
self.book = self.load_workbook(filepath_or_buffer)
File "D:\python\lib\site-packages\pandas\io\excel\_xlrd.py", line 37, in load_workbook
return open_workbook(filepath_or_buffer)
File "D:\python\lib\site-packages\xlrd\__init__.py", line 170, in open_workbook
raise …Run Code Online (Sandbox Code Playgroud) 我想使用python的Pandas库读取.xlsx文件,并将数据移植到postgreSQL表.
到目前为止我能做的就是:
import pandas as pd
data = pd.ExcelFile("*File Name*")
Run Code Online (Sandbox Code Playgroud)
现在我知道步骤已成功执行,但我想知道如何解析已读取的excel文件,以便我可以理解excel中的数据如何映射到变量数据中的数据.
我知道如果我没错,数据就是一个Dataframe对象.那么我如何解析这个数据框对象以逐行提取每一行.
我目前正在使用pandas来读取Excel文件并向用户显示其工作表名称,因此他可以选择他想要使用的工作表.问题是文件非常大(70列x 65k行),在笔记本上加载最多需要14秒(CSV文件中的相同数据需要3秒).
我在熊猫的代码是这样的:
xls = pandas.ExcelFile(path)
sheets = xls.sheet_names
Run Code Online (Sandbox Code Playgroud)
我之前尝试过xlrd,但获得了类似的结果.这是我的xlrd代码:
xls = xlrd.open_workbook(path)
sheets = xls.sheet_names
Run Code Online (Sandbox Code Playgroud)
那么,有人能建议一种更快的方法从Excel文件中检索工作表名称而不是读取整个文件吗?
我有一个很大的Excel文件,其中包含许多不同的工作表。所有工作表都具有相同的结构,例如:
Name
col1 col2 col3 col4
1 1 2 4
4 3 2 1
Run Code Online (Sandbox Code Playgroud)
Pandas而不必手动命名每个工作表?如果这些是文件,则可以glob用来获取目录中的文件列表。但是在这里,对于excel表格,我迷路了。谢谢!
我有一个包含 40 个工作表名称的 Excel 文件。我想将每张工作表读取到不同的数据框,因此我可以为每张工作表导出一个 xlsx 文件。我不想一一写入所有工作表名称,而是想创建一个循环来获取所有工作表名称并将它们添加为“pandas_read_excel”的“sheet_name”选项中的变量
我试图避免这种情况:
df1 = pd.read_excel(r'C:\Users\filename.xlsx', sheet_name= 'Sheet1');
df2 = pd.read_excel(r'C:\Users\filename.xlsx', sheet_name= 'Sheet2');
....
df40 = pd.read_excel(r'C:\Users\filename.xlsx', sheet_name= 'Sheet40');
Run Code Online (Sandbox Code Playgroud)
谢谢大家