将制表符分隔的 .txt 解析为 Pandas DataFrame

leg*_*337 2 python csv string dataframe

我有一个制表符分隔的 .txt 文件,我正在尝试将其导入到与文本文件格式相同的 Python 数据框中,如下所示:

火腿TAB一直到裕廊点,太疯狂了。只在布吉斯大世界有自助餐。电影那里有更多的东西...

垃圾邮件 TAB 免费参加 2 场每周比赛,赢得 FA 杯决赛 tkts 2005 年 5 月 21 日。发短信 FA 至 87121 接收报名问题(标准 txt 率)T&C 适用 08452810075over18's

...

请注意,上面的内容还有很多很多行(大约 5500 行),我想将它们传递到 Python 中,并在从中创建矩阵数组时保持相同的格式。

我目前的代码是:

 import pandas as pd 

 with open("SMSSpamCollection.txt") as f:
      reader = csv.reader(f, delimiter = "\t")
      d = list(reader)
 d = pd.DataFrame(reader)
Run Code Online (Sandbox Code Playgroud)

它稍微做了我需要它做的事情,但我想要一个包含两列的 DataFrame:Y(包含火腿或垃圾邮件)和第二个 X(包含消息)。这时候我得到了一个[5572,2] DataFrame。

Bło*_*tek 7

这个怎么样:

import pandas as pd 
d = pd.read_csv("SMSSpamCollection.txt", sep="\t", names=['Y','X'])
Run Code Online (Sandbox Code Playgroud)