将制表符分隔的 .txt 解析为 Pandas DataFrame

Question

将制表符分隔的 .txt 解析为 Pandas DataFrame

leg*_*337 2 python csv string dataframe

我有一个制表符分隔的 .txt 文件，我正在尝试将其导入到与文本文件格式相同的 Python 数据框中，如下所示：

火腿TAB一直到裕廊点，太疯狂了。只在布吉斯大世界有自助餐。电影那里有更多的东西...

垃圾邮件 TAB 免费参加 2 场每周比赛，赢得 FA 杯决赛 tkts 2005 年 5 月 21 日。发短信 FA 至 87121 接收报名问题（标准 txt 率）T&C 适用 08452810075over18's

...

请注意，上面的内容还有很多很多行（大约 5500 行），我想将它们传递到 Python 中，并在从中创建矩阵数组时保持相同的格式。

我目前的代码是：

 import pandas as pd 

 with open("SMSSpamCollection.txt") as f:
      reader = csv.reader(f, delimiter = "\t")
      d = list(reader)
 d = pd.DataFrame(reader)

Run Code Online (Sandbox Code Playgroud)

它稍微做了我需要它做的事情，但我想要一个包含两列的 DataFrame：Y（包含火腿或垃圾邮件）和第二个 X（包含消息）。这时候我得到了一个[5572,2] DataFrame。

Answer 1

Bło*_*tek 7

这个怎么样：

import pandas as pd 
d = pd.read_csv("SMSSpamCollection.txt", sep="\t", names=['Y','X'])

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，11 月前
查看次数：	9795 次
最近记录：	5 年，11 月前