小编Jer*_*nes的帖子

从 Pandas 列中删除 unicode '\xa0'

我得到了一个 latin-1 .txt 数据集,我正在尝试清理它以使用 python 3 和 Pandas 进行正确的分析。从 html 中抓取的数据集包含许多 \xa0 出现,我似乎无法使用解码、剥离、-u 替换或我在堆栈溢出时发现的任何其他方法来处理这些。我所有的尝试似乎都被 python 忽略了,仍然打印出相同的结果。由于我是数据抓取的新手,因此我可能错过了一些明显的东西,但现在我看不到前进的道路

我试图解码为 ascii,剥离为 str 然后替换,或使用 -u 子句替换,没有导致任何结果

filepath = 'meow3.txt'  
outF = open("myOutFile.txt", "a")
with open(filepath) as fp:  
    line = fp.readline()
    for line in fp:
        if line.strip().startswith(','):
            line = line.replace(',','',1)
        line = line.replace(u'\xa0', u' ')
        print(line)

df = pd.read_csv('myOutFile.txt', sep=",", encoding="latin-1", header=None, names=["Company name", "Total", "Invested since-to"])

print (df)
Run Code Online (Sandbox Code Playgroud)
3sun Group, £10m ,Feb 2014 
,Abacus, £4.15m ,Aug 2013 
,Accsys Group ,£12m, Mar 2017, 
Acro ,\xa0£7.8m, …
Run Code Online (Sandbox Code Playgroud)

string encoding python-3.x pandas

3
推荐指数
2
解决办法
4073
查看次数

标签 统计

encoding ×1

pandas ×1

python-3.x ×1

string ×1