熊猫:查找excel文件中的工作表列表

Question

熊猫:查找excel文件中的工作表列表

Ame*_*ina 106 python excel xlrd pandas openpyxl

新版本的Pandas使用以下界面加载Excel文件:

read_excel('path_to_file.xls', 'Sheet1', index_col=None, na_values=['NA'])

Run Code Online (Sandbox Code Playgroud)

但是,如果我不知道可用的床单怎么办？

例如,我正在使用以下表格的excel文件

数据1,数据2 ...,数据N,foo,bar

但我不知道N先验.

有没有办法从熊猫的excel文档中获取工作表列表？

Answer 1

And*_*den 187

您仍然可以使用ExcelFile类(和sheet_names属性):

xl = pd.ExcelFile('foo.xls')

xl.sheet_names  # see all sheet names

xl.parse(sheet_name)  # read a specific sheet to DataFrame

Run Code Online (Sandbox Code Playgroud)

查看docs for parse以获取更多选项...

在[here]之前提到过(http://stackoverflow.com/a/16896091/1240268),但我喜欢在xl.sheet_names中使用`{sheet_name:xl.parse(sheet_name)for sheet_name保存DataFrames字典. (6认同)
谢谢@安迪。请问，Pandas 会在 ExcelFile 中加载 excel 表吗？另外，假设我查找工作表列表并决定加载其中的 N 个，此时我应该为每个工作表调用 `read_excel`（新界面），还是坚持使用 `x1.parse`？ (2认同)
我认为*ExcelFile会保持文件打开(并且不会全部读取),我认为使用解析(并且仅打开文件一次)在这里最有意义.tbh我错过了read_excel的到来! (2认同)
希望我能给你更多的赞成,这也适用于多个版本的熊猫!(不知道为什么他们喜欢经常更改API)感谢您指向我的解析函数,这里是当前的链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas. ExcelFile.parse.html (2认同)
@NicholasLu不需要投票，这个答案来自2013年！就是说，尽管ExcelFile是解析excel文件的原始方法，但它并不被弃用，并且仍然是一种完全有效的方法。 (2认同)
在 pandas 1.1.5 中打开 xlsx 文件时，这将失败。但可以通过使用“xl = pd.ExcelFile('foo.xls', engine='openpyxl')”来修复。与我的问题相关，请参阅此[线程](/sf/ask/4567514521/) (2认同)

Answer 2

Nic*_* Lu 29

您应该将第二个参数(sheetname)明确指定为None.像这样:

 df = pandas.read_excel("/yourPath/FileName.xlsx", None);

Run Code Online (Sandbox Code Playgroud)

"df"都是作为DataFrames字典的工作表,您可以通过运行以下方法对其进行验证:

df.keys()

Run Code Online (Sandbox Code Playgroud)

结果是这样的:

[u'201610', u'201601', u'201701', u'201702', u'201703', u'201704', u'201705', u'201706', u'201612', u'fund', u'201603', u'201602', u'201605', u'201607', u'201606', u'201608', u'201512', u'201611', u'201604']

Run Code Online (Sandbox Code Playgroud)

有关详细信息,请参阅pandas doc:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html

@AndyHayden它可能效率不高,但如果您关心所有工作表,或者您不关心额外的开销,它可能是最好的. (5认同)
这不必要地将每个工作表解析为 DataFrame，这不是必需的。“如何读取 xls/xlsx 文件”是一个 [不同的问题](/sf/ask/1182222191/)。 (3认同)
命名参数称为“sheet_name”。即`df = pandas.read_excel("/yourPath/FileName.xlsx",sheet_name=None,engine='openpyxl')` (2认同)

Answer 3

小智 23

从 Excel（xls.、xlsx）检索工作表名称的最简单方法是：

tabs = pd.ExcelFile("path").sheet_names 
print(tabs)

Run Code Online (Sandbox Code Playgroud)

然后读取并存储特定工作表的数据（例如，工作表名称为“Sheet1”、“Sheet2”等），例如“Sheet2”：

data = pd.read_excel("path", "Sheet2") 
print(data)

Run Code Online (Sandbox Code Playgroud)

Answer 4

S.E*_*E.A 5

这是我发现最快的方法，灵感来自@divingTobi的答案。所有基于xlrd，openpyxl或pandas的答案对我来说都很慢，因为它们都首先加载整个文件。

from zipfile import ZipFile
from bs4 import BeautifulSoup  # you also need to install "lxml" for the XML parser

with ZipFile(file) as zipped_file:
    summary = zipped_file.open(r'xl/workbook.xml').read()
soup = BeautifulSoup(summary, "xml")
sheets = [sheet.get("name") for sheet in soup.find_all("sheet")]

Run Code Online (Sandbox Code Playgroud)

Answer 5

小智 5

#It will work for Both '.xls' and '.xlsx' by using pandas

import pandas as pd
excel_Sheet_names = (pd.ExcelFile(excelFilePath)).sheet_names

#for '.xlsx' use only  openpyxl

from openpyxl import load_workbook
excel_Sheet_names = (load_workbook(excelFilePath, read_only=True)).sheet_names

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，9 月前
查看次数：	92891 次
最近记录：	6 年，7 月前