标签: character-encoding

如何测试文本文件的编码...它是否有效，它是什么？

我有几个.htm在Gedit中打开的文件没有任何警告/错误，但是当我在Jedit.

HTML 元标记声明“charset=ISO-8859-1”。JEDIT允许备用编码的列表和编码自动检测的名单（目前“BOM XML-PI”），所以我的眼前的问题已得到解决。但这让我想到：如果元数据不存在怎么办？

当编码信息不可用时，是否有 CLI 程序可以“最佳猜测”哪些编码可能适用？

而且，虽然这是一个稍微不同的问题；是否有测试已知编码有效性的 CLI 程序？

character-encoding utilities text-processing

Pet*_*r.O

2019 01-27

67
推荐指数

3
解决办法

17万
查看次数

如何将 VIM 的默认编码设置为 UTF-8？

我想为一个提供翻译字符串的开源项目做出贡献。他们的要求之一是贡献者必须使用 UTF-8 作为 PO 文件的编码。

我在 Linux 上使用 VIM 7.3。我如何确定 VIM 的编码设置为 UTF-8，以便我可以以正确的方式编辑和保存 .po 文件？

vim character-encoding unicode

Pao*_*olo

2011 10-27

65
推荐指数

2
解决办法

8万
查看次数

将字节回显到文件

我正在尝试使用 i2c 总线将我的 rasberry Pi 连接到某些显示器。首先，我想手动写入内容，特别是字节到文件。如何将特定字节写入文件？我已经读过那个，我认为我的问题应该通过这样的方式解决

echo -n -e \x66\x6f\x6f > byteFileForNow

Run Code Online (Sandbox Code Playgroud)

然而，当我打开了纳米该文件，而不是富我看到：

x66x6fx6f

所以反斜杠被转义了，而不是字节本身。这次我也只在没有-e 的情况下尝试了相同的方法，所以我本来希望看到\x66\x6f\x6f，但结果和以前一样。

因此，echo 正在转义反斜杠、单独的反斜杠和反斜杠，而不管它是否应该这样做。
知道如何解决这个问题吗？
根据应该已经完成我正在寻找的手册页。

shell character-encoding echo quoting

Mar*_*ark

2017 04-13

63
推荐指数

2
解决办法

15万
查看次数

过滤无效的 utf8

我有一个未知或混合编码的文本文件。我想查看包含无效 UTF-8 字节序列的行（通过将文本文件传输到某个程序中）。同样，我想过滤掉有效的 UTF-8 行。换句话说，我正在寻找.grep [notutf8]

理想的解决方案是可移植、简短且可推广到其他编码，但如果您觉得最好的方法是加入UTF-8的定义，请继续。

command-line character-encoding text-processing unicode

Gil*_*il'

lucky-day

58
推荐指数

4
解决办法

6万
查看次数

^M 字符叫什么？

TexPad 正在创建它。我知道它处于某种死锁状态。我只是不记得它是名字。

蓝色字符：

在此处输入图片说明

我只想从我的文档中批量删除它们。

你怎么能打字？

character-encoding text

Léo*_* 준영

2014 06-06

55
推荐指数

2
解决办法

12万
查看次数

Linux 上的文件名和路径使用什么字符集编码？

这是否取决于我使用的文件系统？例如，ext2/ext3/ext4 以及当我插入其中一张带有 ISO 9660 的“joliet”CD-ROM 时会发生什么？我听说 POSIX 包含某种文件名字符集编码的规范？

本质上，我想知道的是，如果我得到了一个 UTF-8 编码的文件名，在我将它传递给 Linux 中的文件 I/O API 之前我需要做什么处理/转换？

character-encoding filenames locale

mar*_*tin

2011 02-13

52
推荐指数

3
解决办法

5万
查看次数

如何在`grep`中使用十六进制代码指定字符？

我正在使用以下命令将十六进制代码 0900（而不是？）的字符集范围 grep 到 097F（而不是？）。我如何使用十六进制代码代替 ? 和？？

bzcat archive.bz2 | grep -v '<[?-?]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[?-?]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml

Run Code Online (Sandbox Code Playgroud)

我得到以下输出：

    <w f="399651">??</w>
    <w f="264423">??</w>
    <w f="213707">??</w>
    <w f="74728">??</w>
    <w f="44281">??</w>
    <w f="35125">??</w>
    <w f="26628">?</w>
    <w f="23981">??</w>
    <w f="22861">??</w> 
    ...

Run Code Online (Sandbox Code Playgroud)

我只想使用十六进制代码而不是 ? 和？在上面的命令中。

如果根本不可能使用十六进制代码，我可以使用 unicode 代替十六进制代码作为字符集 ('?-?') 吗？

我正在使用 Ubuntu 10.04

shell grep character-encoding unicode

Dhr*_*jee

2016 11-27

36
推荐指数

3
解决办法

8万
查看次数

为什么某些字符在 Chrome 中显示为正方形？

例如，在开发工具中，我得到类似的信息：

Chrome 开发工具

其中一些方块位于行尾，最初我以为它们是回车，但事实证明它们不是。

此外，广场出现后=或>在许多地方没有换行，并期待在十六进制编辑器显示该文件不存在根本之间的任何字符=和"（例如id="被显示为id=? "）

这也偶尔出现在网页中，例如我看到：

谷歌搜索结果

我复制了那句话，在十六进制编辑器看着它，并再次之间不存在性格e和:。源代码中也没有显示任何内容。

我以前从未见过这种情况，这是我几天前重新安装 arch 之后才出现的。

Chrome 是：版本19.0.1084.15 dev
Arch 是： Kernel 3.3.1-1-ARCH，x86_64

locale.gen已en_GB取消注释语言环境（UTF-8和ISO-8859-1）。chrome 中的编码默认为ISO-8859-1，但将其切换为UTF-8没有区别。

这是我使用的 html 文件：test.html

修复会很棒，解释会很棒，确认这只是（或不是）我的设置有问题也很好。

编辑：在调查字体后，我发现在这两种情况下它都试图使用 arial，它在 arch 中是ttf-ms-fonts包的一部分。安装它会导致字体发生变化，但方块仍然存在（尽管形状不同）。在这两种情况下，字体都不符合系统的默认字体。

Chrome 开发工具 - 带有 arial

arch-linux character-encoding chrome fonts

Mat*_*Mat

2017 03-10

33
推荐指数

4
解决办法

6万
查看次数

tr 抱怨“非法字节序列”

我是 UNIX 的新手，我正在使用 Kirk McElhearn 的“Mac OS X 命令行”自学一些命令。

我正在尝试使用trandgrep以便我可以在常规 MS-Office Word 文档中搜索文本字符串。

$ tr '\r' '\n' < target-file | grep search-string

Run Code Online (Sandbox Code Playgroud)

但它返回的只是：

Illegal byte sequence.

Run Code Online (Sandbox Code Playgroud)

robomechanoid:Position-Paper-Final-Draft robertjralph$ tr '\r' '\n' < Position-Paper-Final-Version.docx | grep DeCSS
tr: Illegal byte sequence
robomechanoid:Position-Paper-Final-Draft robertjralph$

Run Code Online (Sandbox Code Playgroud)

我实际上在我创建的脚本上运行了同一行，vi并且它正确地进行了搜索。

grep character-encoding text-processing binary tr

use*_*886

2014 07-09

33
推荐指数

2
解决办法

5万
查看次数