AWS GLUE 导入 xls/xlsx 文件

Law*_*nce 3 amazon-web-services aws-glue

我正在为我的客户设置 AWS GLUE 作业。他们的文件是带有 xls/xlsx 扩展名的 excel 文件,并且有多个工作表,他们不想在上传之前做任何转换工作。如何直接从 xls/xlsx 文件中提取数据,或者 GLUE 能否将 xls/xlsx 文件转换为 csv 文件?

Kru*_*rot 6

GLUE 目前不支持 xls/xlsx。最简单的方法是在glue 中编写一个python shell 作业,将excel 转换为csv,然后在其上运行爬虫。下面是python中的示例

 import xlrd
 import csv

 def csv_from_excel():

    wb = xlrd.open_workbook('your_workbook.xls')
    sh = wb.sheet_by_name('Sheet1')
    your_csv_file = open('your_csv_file.csv', 'wb')
    wr = csv.writer(your_csv_file, quoting=csv.QUOTE_ALL)

    for rownum in xrange(sh.nrows):
        wr.writerow(sh.row_values(rownum))

    your_csv_file.close()
Run Code Online (Sandbox Code Playgroud)