将 Excel 转换为 Parquet 文件

Aru*_*run 5 python excel dataframe pandas parquet

我有一个很大的 Excel 文件,其中一些列包含长句子的自由文本数据。我必须将其转换为镶木地板格式才能摄取到仓库中。我无法将其转换为 csv,因为那些具有长句子的列有逗号。制表符分隔也不起作用。

这里有什么建议,如何使用 python 将这种类型的 excel 文件转换为 parquet 格式?

谢谢 !!

小智 7

您可以使用 pandas 读取文件并将其导出为 parquet 文件:

import pandas

# Read the Excel file
df = pandas.read_excel('my_data.xlsx')

# Write the Parquet file
df.to_parquet('my_data.parquet')
Run Code Online (Sandbox Code Playgroud)


小智 0

也许可以将其转换为 csv,用 分隔而;不是,.

如果没有,您可以尝试将其读入 pandas,然后导出到 parquet。

https://www.geeksforgeeks.org/convert-excel-to-csv-in-python/

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_parquet.html