Ame*_*ina 106 python excel xlrd pandas openpyxl
新版本的Pandas使用以下界面加载Excel文件:
read_excel('path_to_file.xls', 'Sheet1', index_col=None, na_values=['NA'])
Run Code Online (Sandbox Code Playgroud)
但是,如果我不知道可用的床单怎么办?
例如,我正在使用以下表格的excel文件
数据1,数据2 ...,数据N,foo,bar
但我不知道N先验.
有没有办法从熊猫的excel文档中获取工作表列表?
And*_*den 187
您仍然可以使用ExcelFile类(和sheet_names属性):
xl = pd.ExcelFile('foo.xls')
xl.sheet_names # see all sheet names
xl.parse(sheet_name) # read a specific sheet to DataFrame
Run Code Online (Sandbox Code Playgroud)
查看docs for parse以获取更多选项...
Nic*_* Lu 29
您应该将第二个参数(sheetname)明确指定为None.像这样:
df = pandas.read_excel("/yourPath/FileName.xlsx", None);
Run Code Online (Sandbox Code Playgroud)
"df"都是作为DataFrames字典的工作表,您可以通过运行以下方法对其进行验证:
df.keys()
Run Code Online (Sandbox Code Playgroud)
结果是这样的:
[u'201610', u'201601', u'201701', u'201702', u'201703', u'201704', u'201705', u'201706', u'201612', u'fund', u'201603', u'201602', u'201605', u'201607', u'201606', u'201608', u'201512', u'201611', u'201604']
Run Code Online (Sandbox Code Playgroud)
有关详细信息,请参阅pandas doc:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html
小智 23
从 Excel(xls.、xlsx)检索工作表名称的最简单方法是:
tabs = pd.ExcelFile("path").sheet_names
print(tabs)
Run Code Online (Sandbox Code Playgroud)
然后读取并存储特定工作表的数据(例如,工作表名称为“Sheet1”、“Sheet2”等),例如“Sheet2”:
data = pd.read_excel("path", "Sheet2")
print(data)
Run Code Online (Sandbox Code Playgroud)
这是我发现最快的方法,灵感来自@divingTobi的答案。所有基于xlrd,openpyxl或pandas的答案对我来说都很慢,因为它们都首先加载整个文件。
from zipfile import ZipFile
from bs4 import BeautifulSoup # you also need to install "lxml" for the XML parser
with ZipFile(file) as zipped_file:
summary = zipped_file.open(r'xl/workbook.xml').read()
soup = BeautifulSoup(summary, "xml")
sheets = [sheet.get("name") for sheet in soup.find_all("sheet")]
Run Code Online (Sandbox Code Playgroud)
小智 5
#It will work for Both '.xls' and '.xlsx' by using pandas
import pandas as pd
excel_Sheet_names = (pd.ExcelFile(excelFilePath)).sheet_names
#for '.xlsx' use only openpyxl
from openpyxl import load_workbook
excel_Sheet_names = (load_workbook(excelFilePath, read_only=True)).sheet_names
Run Code Online (Sandbox Code Playgroud)