Pandas Dataframe 到带有分隔符的字符串

Question

Pandas Dataframe 到带有分隔符的字符串

kil*_*lag 3 python tostring utf-8 dataframe pandas

我想将数据框转换为字符串。这个主题How to turn a pandas dataframe row into a逗号分隔的字符串接近我想要的。此解决方案的唯一问题：我有一个带有分隔符的字符串列“国家”（例如，使用此解决方案，数据框正在转换为字符串，但我将“美国”变成“美国，美国”）所以目前我只有以下代码：

df = df.to_string(index=False).split('\n')
df = [','.join(ele.split()) for ele in df]
df = '\r\n'.join(df)
df = df.encode('utf8')

Run Code Online (Sandbox Code Playgroud)

但是对于像这样的数据框：

data = [['United States', 10, 12], ['United Kingdom', 15, 25], ['France', 14, 18]] 
df = pd.DataFrame(data, columns = ['Country', 'Number1', 'Number2'])

Run Code Online (Sandbox Code Playgroud)

我会有

b'Country,Number1,Number2\r\nUnited,States,10,12\r\n,United,Kingdom,15,25\r\nFrance,14,18'

Run Code Online (Sandbox Code Playgroud)

代替：

b'Country,Number1,Number2\r\nUnited States,10,12\r\n,United Kingdom,15,25\r\nFrance,14,18'

Run Code Online (Sandbox Code Playgroud)

目前我已经解决了很多问题：

df= df.replace('United,States', 'United States')

Run Code Online (Sandbox Code Playgroud)

但这不是一个很好的解决方案，因为每次有新的国家出现时，我都必须更新脚本

（最终目标是将数据帧转换为 utf-8 中的字符串以允许计算它的 md5 ，而不使用 df.to_csv() 并计算创建的文件的 md5，如果您有比这个技巧更好的方法，它也可以帮帮我）谢谢！

Answer 1

Rom*_*man 5

data = [['United States', 10, 12], ['United Kingdom', 15, 25], ['France', 14, 18]]
df = pd.DataFrame(data, columns = ['Country', 'Number1', 'Number2'])

df = df.to_csv(header=None, index=False).strip('\n').split('\n')
df_string = '\r\n'.join(df)  # <= this is the string that you can use with md5
df_bytes = df_string.encode('utf8')  # <= this is bytes object to write the file
print(df_bytes)

Run Code Online (Sandbox Code Playgroud)

使用df_string的MD5和df_bytes写入文件。

df_bytes 包含这个：

b'United States,10,12\r\nUnited Kingdom,15,25\r\nFrance,14,18'

归档时间：	6 年，3 月前
查看次数：	3987 次
最近记录：	6 年，3 月前