相关疑难解决方法(0)

Windows-1252到UTF-8编码

我已经将某些文件从Windows机器复制到了Linux机器上.因此,所有Windows编码(windows-1252)文件都需要转换为UTF-8.不应更改已存在UTF-8的文件.我打算使用该recode实用程序.如何指定该recode实用程序应仅转换windows-1252编码的文件而不是UTF-8文件?

重新编码的示例用法:

recode windows-1252.. myfile.txt
Run Code Online (Sandbox Code Playgroud)

myfile.txt将从windows-1252 转换为UTF-8.在此之前,我想知道myfile.txt实际上是windows-1252编码而不是UTF-8编码.否则,我相信这会破坏文件.

encoding utf-8 character-encoding windows-1252

33
推荐指数
5
解决办法
21万
查看次数

'utf8towcs'中的r tm包无效输入

我正在尝试使用R中的tm包来执行一些文本分析.我绑了以下内容:

require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)?lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Run Code Online (Sandbox Code Playgroud)

问题是某些字符无效.我想从R中或在导入文件进行处理之前从分析中排除无效字符.

我尝试使用iconv将所有文件转换为utf-8并排除任何无法转换为的内容,如下所示:

find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \; 
Run Code Online (Sandbox Code Playgroud)

正如在此指出的那样使用iconv将latin-1文件批量转换为utf-8

但我仍然得到同样的错误.

我很感激任何帮助.

r utf-8 text-mining iconv

27
推荐指数
6
解决办法
4万
查看次数

如何在许多文件中更改编码?

我试试这个:

find . -exec iconv -f iso8859-2 -t utf-8 {} \;
Run Code Online (Sandbox Code Playgroud)

但输出转到屏幕,而不是同一个文件.怎么做?

linux bash

5
推荐指数
1
解决办法
8697
查看次数

跨Eclipse,Mercurial,Windows和Mac OS编码问题

在我的CS研究期间,我们有很多小组作业.我们使用Eclipse在Java中编程.我们(至少我试图让他们)使用Mercurial和BitBucket共享代码.我正在运行Mac OSX 10.7,而其他人正在运行Windows 7.我们在共享代码时经常遇到编码问题.æ,ø和å等丹麦人通常都是一团糟.

我们应该在我们的eclipse设置中运行什么设置以确保编码是相同的(以及首选的编码?)在Windows上,Eclipse默认为Cp1252,在MacOS上默认为MacRoman.我一直试图让每个人都使用UTF-8,但是他们之前编写的代码(在Cp1252中)不能正确显示,所以他们被迫转换很多,这通常最终导致他们默认回到Cp1252而忘记了它们将代码提交到共享存储库时.

eclipse mercurial encoding

1
推荐指数
1
解决办法
1472
查看次数