熊猫:查找excel文件中的工作表列表

Ame*_*ina 106 python excel xlrd pandas openpyxl

新版本的Pandas使用以下界面加载Excel文件:

read_excel('path_to_file.xls', 'Sheet1', index_col=None, na_values=['NA'])
Run Code Online (Sandbox Code Playgroud)

但是,如果我不知道可用的床单怎么办?

例如,我正在使用以下表格的excel文件

数据1,数据2 ...,数据N,foo,bar

但我不知道N先验.

有没有办法从熊猫的excel文档中获取工作表列表?

And*_*den 187

您仍然可以使用ExcelFile类(和sheet_names属性):

xl = pd.ExcelFile('foo.xls')

xl.sheet_names  # see all sheet names

xl.parse(sheet_name)  # read a specific sheet to DataFrame
Run Code Online (Sandbox Code Playgroud)

查看docs for parse以获取更多选项...

  • 在[here]之前提到过(http://stackoverflow.com/a/16896091/1240268),但我喜欢在xl.sheet_names中使用`{sheet_name:xl.parse(sheet_name)for sheet_name保存DataFrames字典. (6认同)
  • 谢谢@安迪。请问,Pandas 会在 ExcelFile 中加载 excel 表吗?另外,假设我查找工作表列表并决定加载其中的 N 个,此时我应该为每个工作表调用 `read_excel`(新界面),还是坚持使用 `x1.parse`? (2认同)
  • 我认为*ExcelFile会保持文件打开(并且不会全部读取),我认为使用解析(并且仅打开文件一次)在这里最有意义.tbh我错过了read_excel的到来! (2认同)
  • 希望我能给你更多的赞成,这也适用于多个版本的熊猫!(不知道为什么他们喜欢经常更改API)感谢您指向我的解析函数,这里是当前的链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas. ExcelFile.parse.html (2认同)
  • @NicholasLu不需要投票,这个答案来自2013年!就是说,尽管ExcelFile是解析excel文件的原始方法,但它并不被弃用,并且仍然是一种完全有效的方法。 (2认同)
  • 在 pandas 1.1.5 中打开 xlsx 文件时,这将失败。但可以通过使用“xl = pd.ExcelFile('foo.xls', engine='openpyxl')”来修复。与我的问题相关,请参阅此[线程](/sf/ask/4567514521/) (2认同)

Nic*_* Lu 29

您应该将第二个参数(sheetname)明确指定为None.像这样:

 df = pandas.read_excel("/yourPath/FileName.xlsx", None);
Run Code Online (Sandbox Code Playgroud)

"df"都是作为DataFrames字典的工作表,您可以通过运行以下方法对其进行验证:

df.keys()
Run Code Online (Sandbox Code Playgroud)

结果是这样的:

[u'201610', u'201601', u'201701', u'201702', u'201703', u'201704', u'201705', u'201706', u'201612', u'fund', u'201603', u'201602', u'201605', u'201607', u'201606', u'201608', u'201512', u'201611', u'201604']
Run Code Online (Sandbox Code Playgroud)

有关详细信息,请参阅pandas doc:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html

  • @AndyHayden它可能效率不高,但如果您关心所有工作表,或者您不关心额外的开销,它可能是最好的. (5认同)
  • 这不必要地将每个工作表解析为 DataFrame,这不是必需的。“如何读取 xls/xlsx 文件”是一个 [不同的问题](/sf/ask/1182222191/)。 (3认同)
  • 命名参数称为“sheet_name”。即`df = pandas.read_excel("/yourPath/FileName.xlsx",sheet_name=None,engine='openpyxl')` (2认同)

小智 23

从 Excel(xls.、xlsx)检索工作表名称的最简单方法是:

tabs = pd.ExcelFile("path").sheet_names 
print(tabs)
Run Code Online (Sandbox Code Playgroud)

然后读取并存储特定工作表的数据(例如,工作表名称为“Sheet1”、“Sheet2”等),例如“Sheet2”:

data = pd.read_excel("path", "Sheet2") 
print(data)
Run Code Online (Sandbox Code Playgroud)


S.E*_*E.A 5

这是我发现最快的方法,灵感来自@divingTobi的答案。所有基于xlrd,openpyxl或pandas的答案对我来说都很慢,因为它们都首先加载整个文件。

from zipfile import ZipFile
from bs4 import BeautifulSoup  # you also need to install "lxml" for the XML parser

with ZipFile(file) as zipped_file:
    summary = zipped_file.open(r'xl/workbook.xml').read()
soup = BeautifulSoup(summary, "xml")
sheets = [sheet.get("name") for sheet in soup.find_all("sheet")]

Run Code Online (Sandbox Code Playgroud)


小智 5

#It will work for Both '.xls' and '.xlsx' by using pandas

import pandas as pd
excel_Sheet_names = (pd.ExcelFile(excelFilePath)).sheet_names

#for '.xlsx' use only  openpyxl

from openpyxl import load_workbook
excel_Sheet_names = (load_workbook(excelFilePath, read_only=True)).sheet_names
                                      
Run Code Online (Sandbox Code Playgroud)