Law*_*nce 3 amazon-web-services aws-glue
我正在为我的客户设置 AWS GLUE 作业。他们的文件是带有 xls/xlsx 扩展名的 excel 文件,并且有多个工作表,他们不想在上传之前做任何转换工作。如何直接从 xls/xlsx 文件中提取数据,或者 GLUE 能否将 xls/xlsx 文件转换为 csv 文件?
GLUE 目前不支持 xls/xlsx。最简单的方法是在glue 中编写一个python shell 作业,将excel 转换为csv,然后在其上运行爬虫。下面是python中的示例
import xlrd
import csv
def csv_from_excel():
wb = xlrd.open_workbook('your_workbook.xls')
sh = wb.sheet_by_name('Sheet1')
your_csv_file = open('your_csv_file.csv', 'wb')
wr = csv.writer(your_csv_file, quoting=csv.QUOTE_ALL)
for rownum in xrange(sh.nrows):
wr.writerow(sh.row_values(rownum))
your_csv_file.close()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6320 次 |
| 最近记录: |