标签: character-encoding

如何测试文本文件的编码...它是否有效,它是什么?

我有几个.htmGedit中打开的文件没有任何警告/错误,但是当我在Jedit.

HTML 元标记声明“charset=ISO-8859-1”。JEDIT允许备用编码的列表编码自动检测的名单(目前“BOM XML-PI”),所以我的眼前的问题已得到解决。但这让我想到:如果元数据不存在怎么办?

当编码信息不可用时,是否有 CLI 程序可以“最佳猜测”哪些编码可能适用?

而且,虽然这是一个稍微不同的问题;是否有测试已知编码有效性的 CLI 程序?

character-encoding utilities text-processing

67
推荐指数
3
解决办法
17万
查看次数

如何将 VIM 的默认编码设置为 UTF-8?

我想为一个提供翻译字符串的开源项目做出贡献。他们的要求之一是贡献者必须使用 UTF-8 作为 PO 文件的编码。

我在 Linux 上使用 VIM 7.3。我如何确定 VIM 的编码设置为 UTF-8,以便我可以以正确的方式编辑和保存 .po 文件?

vim character-encoding unicode

65
推荐指数
2
解决办法
8万
查看次数

将字节回显到文件

我正在尝试使用 i2c 总线将我的 rasberry Pi 连接到某些显示器。首先,我想手动写入内容,特别是字节到文件。 如何将特定字节写入文件? 我已经读过那个,我认为我的问题应该通过这样的方式解决

echo -n -e \x66\x6f\x6f > byteFileForNow
Run Code Online (Sandbox Code Playgroud)

然而,当我打开了纳米该文件,而不是我看到:

x66x6fx6f

所以反斜杠被转义了,而不是字节本身。这次我也只在没有-e 的情况下尝试了相同的方法,所以我本来希望看到\x66\x6f\x6f,但结果和以前一样。

因此,echo 正在转义反斜杠、单独的反斜杠和反斜杠,而不管它是否应该这样做。
知道如何解决这个问题吗?
根据应该已经完成​​我正在寻找的手册页。

shell character-encoding echo quoting

63
推荐指数
2
解决办法
15万
查看次数

过滤无效的 utf8

我有一个未知或混合编码的文本文件。我想查看包含无效 UTF-8 字节序列的行(通过将文本文件传输到某个程序中)。同样,我想过滤掉有效的 UTF-8 行。换句话说,我正在寻找.grep [notutf8]

理想的解决方案是可移植、简短且可推广到其他编码,但如果您觉得最好的方法是加入UTF-8定义,请继续。

command-line character-encoding text-processing unicode

58
推荐指数
4
解决办法
6万
查看次数

^M 字符叫什么?

TexPad 正在创建它。我知道它处于某种死锁状态。我只是不记得它是名字。

蓝色字符:

在此处输入图片说明

我只想从我的文档中批量删除它们。

你怎么能打字?

character-encoding text

55
推荐指数
2
解决办法
12万
查看次数

Linux 上的文件名和路径使用什么字符集编码?

这是否取决于我使用的文件系统?例如,ext2/ext3/ext4 以及当我插入其中一张带有 ISO 9660 的“joliet”CD-ROM 时会发生什么?我听说 POSIX 包含某种文件名字符集编码的规范?

本质上,我想知道的是,如果我得到了一个 UTF-8 编码的文件名,在我将它传递给 Linux 中的文件 I/O API 之前我需要做什么处理/转换?

character-encoding filenames locale

52
推荐指数
3
解决办法
5万
查看次数

如何在`grep`中使用十六进制代码指定字符?

我正在使用以下命令将十六进制代码 0900(而不是?)的字符集范围 grep 到 097F(而不是?)。我如何使用十六进制代码代替 ? 和 ??

bzcat archive.bz2 | grep -v '<[?-?]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[?-?]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml
Run Code Online (Sandbox Code Playgroud)

我得到以下输出:

    <w f="399651">??</w>
    <w f="264423">??</w>
    <w f="213707">??</w>
    <w f="74728">??</w>
    <w f="44281">??</w>
    <w f="35125">??</w>
    <w f="26628">?</w>
    <w f="23981">??</w>
    <w f="22861">??</w> 
    ...
Run Code Online (Sandbox Code Playgroud)

我只想使用十六进制代码而不是 ? 和 ?在上面的命令中。

如果根本不可能使用十六进制代码,我可以使用 unicode 代替十六进制代码作为字符集 ('?-?') 吗?

我正在使用 Ubuntu 10.04

shell grep character-encoding unicode

36
推荐指数
3
解决办法
8万
查看次数

为什么某些字符在 Chrome 中显示为正方形?

例如,在开发工具中,我得到类似的信息:

Chrome 开发工具

其中一些方块位于行尾,最初我以为它们是回车,但事实证明它们不是。

此外,广场出现后=>在许多地方没有换行,并期待在十六进制编辑器显示该文件不存在根本之间的任何字符="(例如id="被显示为id=? "

这也偶尔出现在网页中,例如我看到:

谷歌搜索结果

我复制了那句话,在十六进制编辑器看着它,并再次之间不存在性格e:。源代码中也没有显示任何内容。

我以前从未见过这种情况,这是我几天前重新安装 arch 之后才出现的。

Chrome 是:版本19.0.1084.15 dev
Arch 是: Kernel 3.3.1-1-ARCHx86_64

locale.genen_GB取消注释语言环境(UTF-8ISO-8859-1)。chrome 中的编码默认为ISO-8859-1,但将其切换为UTF-8没有区别。

这是我使用的 html 文件:test.html

修复会很棒,解释会很棒,确认这只是(或不是)我的设置有问题也很好。

编辑:在调查字体后,我发现在这两种情况下它都试图使用 arial,它在 arch 中是ttf-ms-fonts包的一部分。安装它会导致字体发生变化,但方块仍然存在(尽管形状不同)。在这两种情况下,字体都不符合系统的默认字体。

Chrome 开发工具 - 带有 arial

arch-linux character-encoding chrome fonts

33
推荐指数
4
解决办法
6万
查看次数

tr 抱怨“非法字节序列”

我是 UNIX 的新手,我正在使用 Kirk McElhearn 的“Mac OS X 命令行”自学一些命令。

我正在尝试使用trandgrep以便我可以在常规 MS-Office Word 文档中搜索文本字符串。

$ tr '\r' '\n' < target-file | grep search-string
Run Code Online (Sandbox Code Playgroud)

但它返回的只是:

Illegal byte sequence.
Run Code Online (Sandbox Code Playgroud)

robomechanoid:Position-Paper-Final-Draft robertjralph$ tr '\r' '\n' < Position-Paper-Final-Version.docx | grep DeCSS
tr: Illegal byte sequence
robomechanoid:Position-Paper-Final-Draft robertjralph$ 
Run Code Online (Sandbox Code Playgroud)

我实际上在我创建的脚本上运行了同一行,vi并且它正确地进行了搜索。

grep character-encoding text-processing binary tr

33
推荐指数
2
解决办法
5万
查看次数

将 UTF-8 文件转换为 ASCII(尽力而为)

我有一个 UTF-8 文件,其中包含多种语言的文本。很多都是人名。我需要将它转换为 ASCII 并且我需要结果看起来尽可能体面。

有多种方法可以将较宽的编码转换为较窄的编码。最简单的转换是将所有非 ASCII 字符替换为某个占位符,例如“_”。如果我知道文件所用的语言,还有其他可能性,比如罗马化。

Unix 上可用的什么 Unix 工具或编程语言库可以让我从 UTF-8 到 ASCII 进行体面的(尽力而为)转换?

大部分文本是基于欧洲、拉丁类型的语言。

character-encoding text natural-language

33
推荐指数
3
解决办法
10万
查看次数