直接在Azure Datalake中将Python Dataframe写入CSV文件

Question

直接在Azure Datalake中将Python Dataframe写入CSV文件

我已将一个excel文件导入到pandas数据框中，并已完成数据浏览和清理过程。

我现在想将已清理的数据帧写到csv文件中，再回到Azure DataLake，而不必先将其保存为本地文件。我正在使用熊猫3。

我的代码如下所示：

token = lib.auth(tenant_id = '', 
                 client_secret ='', 
                 client_id = '')

adl = core.AzureDLFileSystem(token, store_name)

with adl.open(path='Raw/Gold/Myfile.csv', mode='wb') as f:
    **in_xls.to_csv(f, encoding='utf-8')**
    f.close()

Run Code Online (Sandbox Code Playgroud)

我在粗体语句中得到以下转储。

TypeError：需要一个类似字节的对象，而不是'str'

我也尝试过但没有运气

with adl.open(path='Raw/Gold/Myfile.csv', mode='wb') as f:
    with io.BytesIO(in_xls) as byte_buf:
        byte_buf.to_csv(f, encoding='utf-8')
        f.close()

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

TypeError：需要一个类似字节的对象，而不是“ DataFrame”

任何想法/技巧将不胜感激

Answer 1

小智 5

前几天，我使用python 3.x在熊猫上工作。此代码在本地计算机上运行，并连接到云中的Azure数据存储。

假设df是熊猫数据框，则可以使用以下代码：

adl = core.AzureDLFileSystem(token, store_name='YOUR_ADLS_STORE_NAME')
      #toke is your login token that was created by whatever ADLS login method you decided.
      #Personally I use the ServiceProvider login
df_str = df.to_csv()
with adl.open('/path/to/file/on/adls/newfile.csv', 'wb') as f:
    f.write(str.encode(df_str))
    f.close()

Run Code Online (Sandbox Code Playgroud)

该键将数据帧转换为字符串，而不是使用str.encode（）函数。

希望这可以帮助。

归档时间：	8 年，9 月前
查看次数：	3346 次
最近记录：	8 年，4 月前