我有几个.htm在Gedit中打开的文件没有任何警告/错误,但是当我在Jedit.
HTML 元标记声明“charset=ISO-8859-1”。JEDIT允许备用编码的列表和编码自动检测的名单(目前“BOM XML-PI”),所以我的眼前的问题已得到解决。但这让我想到:如果元数据不存在怎么办?
当编码信息不可用时,是否有 CLI 程序可以“最佳猜测”哪些编码可能适用?
而且,虽然这是一个稍微不同的问题;是否有测试已知编码有效性的 CLI 程序?
我想为一个提供翻译字符串的开源项目做出贡献。他们的要求之一是贡献者必须使用 UTF-8 作为 PO 文件的编码。
我在 Linux 上使用 VIM 7.3。我如何确定 VIM 的编码设置为 UTF-8,以便我可以以正确的方式编辑和保存 .po 文件?
我正在尝试使用 i2c 总线将我的 rasberry Pi 连接到某些显示器。首先,我想手动写入内容,特别是字节到文件。 如何将特定字节写入文件? 我已经读过那个,我认为我的问题应该通过这样的方式解决
echo -n -e \x66\x6f\x6f > byteFileForNow
Run Code Online (Sandbox Code Playgroud)
然而,当我打开了纳米该文件,而不是富我看到:
x66x6fx6f
所以反斜杠被转义了,而不是字节本身。这次我也只在没有-e 的情况下尝试了相同的方法,所以我本来希望看到\x66\x6f\x6f,但结果和以前一样。
因此,echo 正在转义反斜杠、单独的反斜杠和反斜杠,而不管它是否应该这样做。
知道如何解决这个问题吗?
根据应该已经完成我正在寻找的手册页。
我有一个未知或混合编码的文本文件。我想查看包含无效 UTF-8 字节序列的行(通过将文本文件传输到某个程序中)。同样,我想过滤掉有效的 UTF-8 行。换句话说,我正在寻找.grep [notutf8]
TexPad 正在创建它。我知道它处于某种死锁状态。我只是不记得它是名字。
蓝色字符:

我只想从我的文档中批量删除它们。
你怎么能打字?
这是否取决于我使用的文件系统?例如,ext2/ext3/ext4 以及当我插入其中一张带有 ISO 9660 的“joliet”CD-ROM 时会发生什么?我听说 POSIX 包含某种文件名字符集编码的规范?
本质上,我想知道的是,如果我得到了一个 UTF-8 编码的文件名,在我将它传递给 Linux 中的文件 I/O API 之前我需要做什么处理/转换?
我正在使用以下命令将十六进制代码 0900(而不是?)的字符集范围 grep 到 097F(而不是?)。我如何使用十六进制代码代替 ? 和 ??
bzcat archive.bz2 | grep -v '<[?-?]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[?-?]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml
Run Code Online (Sandbox Code Playgroud)
我得到以下输出:
<w f="399651">??</w>
<w f="264423">??</w>
<w f="213707">??</w>
<w f="74728">??</w>
<w f="44281">??</w>
<w f="35125">??</w>
<w f="26628">?</w>
<w f="23981">??</w>
<w f="22861">??</w>
...
Run Code Online (Sandbox Code Playgroud)
我只想使用十六进制代码而不是 ? 和 ?在上面的命令中。
如果根本不可能使用十六进制代码,我可以使用 unicode 代替十六进制代码作为字符集 ('?-?') 吗?
我正在使用 Ubuntu 10.04
例如,在开发工具中,我得到类似的信息:

其中一些方块位于行尾,最初我以为它们是回车,但事实证明它们不是。
此外,广场出现后=或>在许多地方没有换行,并期待在十六进制编辑器显示该文件不存在根本之间的任何字符=和"(例如id="被显示为id=? ")
这也偶尔出现在网页中,例如我看到:

我复制了那句话,在十六进制编辑器看着它,并再次之间不存在性格e和:。源代码中也没有显示任何内容。
我以前从未见过这种情况,这是我几天前重新安装 arch 之后才出现的。
Chrome 是:版本19.0.1084.15 dev
Arch 是: Kernel 3.3.1-1-ARCH,x86_64
locale.gen已en_GB取消注释语言环境(UTF-8和ISO-8859-1)。chrome 中的编码默认为ISO-8859-1,但将其切换为UTF-8没有区别。
这是我使用的 html 文件:test.html
修复会很棒,解释会很棒,确认这只是(或不是)我的设置有问题也很好。
编辑:在调查字体后,我发现在这两种情况下它都试图使用 arial,它在 arch 中是ttf-ms-fonts包的一部分。安装它会导致字体发生变化,但方块仍然存在(尽管形状不同)。在这两种情况下,字体都不符合系统的默认字体。

我是 UNIX 的新手,我正在使用 Kirk McElhearn 的“Mac OS X 命令行”自学一些命令。
我正在尝试使用trandgrep以便我可以在常规 MS-Office Word 文档中搜索文本字符串。
$ tr '\r' '\n' < target-file | grep search-string
Run Code Online (Sandbox Code Playgroud)
但它返回的只是:
Illegal byte sequence.
Run Code Online (Sandbox Code Playgroud)
robomechanoid:Position-Paper-Final-Draft robertjralph$ tr '\r' '\n' < Position-Paper-Final-Version.docx | grep DeCSS
tr: Illegal byte sequence
robomechanoid:Position-Paper-Final-Draft robertjralph$
Run Code Online (Sandbox Code Playgroud)
我实际上在我创建的脚本上运行了同一行,vi并且它正确地进行了搜索。
我有一个 UTF-8 文件,其中包含多种语言的文本。很多都是人名。我需要将它转换为 ASCII 并且我需要结果看起来尽可能体面。
有多种方法可以将较宽的编码转换为较窄的编码。最简单的转换是将所有非 ASCII 字符替换为某个占位符,例如“_”。如果我知道文件所用的语言,还有其他可能性,比如罗马化。
Unix 上可用的什么 Unix 工具或编程语言库可以让我从 UTF-8 到 ASCII 进行体面的(尽力而为)转换?
大部分文本是基于欧洲、拉丁类型的语言。