相关疑难解决方法(0)

如何检测read.csv的正确编码?

我有这个文件(http://b7hq6v.alterupload.com/en/),我想在R中阅读read.csv.但我无法检测到正确的编码.它似乎是一种UTF-8.我在WindowsXP机器上使用R 2.12.1.任何帮助?

r character-encoding read.csv

51
推荐指数
3
解决办法
4万
查看次数

为什么这个转换为utf8不起作用?

我有一个子进程命令输出一些字符,如'\ xf1'.我正在尝试将其解码为utf8但我收到错误.

s = '\xf1'
s.decode('utf-8')
Run Code Online (Sandbox Code Playgroud)

以上抛出:

UnicodeDecodeError: 'utf8' codec can't decode byte 0xf1 in position 0: unexpected end of data
Run Code Online (Sandbox Code Playgroud)

当我使用'latin-1'但是不应该使用utf8时它可以正常工作吗?我的理解是latin1是utf8的子集.

我在这里错过了什么吗?

编辑:

print s # ñ
repr(s) # returns "'\\xa9'"
Run Code Online (Sandbox Code Playgroud)

python unicode encoding utf-8

14
推荐指数
1
解决办法
1万
查看次数

为什么标点符号的 R gsub(或正则表达式)没有得到所有标点符号?

我正在清理基于文本的数据文件,但无法弄清楚为什么gsub("[[:punct:]]", "", X1)不匹配所有标点符号。不幸的是,我无法在这里复制这个问题,这让我认为这是一个字符编码问题——有问题的标点符号的外观与标准 ASCII 明显不同。

这是我读入文件后可以解决的问题,还是我必须在前端做些什么?例如,Hadley关于编码问题的帖子让我觉得我在读取文件时需要指定编码语句。但是,我正在从一个文件夹中读取一堆不同的 txt 文件,所以我不确定最佳解决方案。基本上,我只想保留所有字母 [A-Za-z] 并排除其他所有字母。(也就是说,gsub([^A-Za-z], "", X1)也不起作用!)

任何有关处理此问题的建议将不胜感激!

regex r character-encoding

3
推荐指数
1
解决办法
803
查看次数

标签 统计

character-encoding ×2

r ×2

encoding ×1

python ×1

read.csv ×1

regex ×1

unicode ×1

utf-8 ×1