标签: character-encoding

从 PDF 中剪切和粘贴越南语字符

我正在尝试将一堆越南语文本从 PDF 文档复制/粘贴到 Notepad++(或任何东西,没有任何效果)。粘贴的文本与源文本不同。解决此问题的最佳方法是什么?

例如:

源文本:(源文本见截图) 在此处输入图片说明

粘贴文字:木瓜沙拉 ~ GÕi ñu ñû Tôm

非常感谢。

编辑:看来,如果源是 Word 文档,它会按预期复制和粘贴。PDF 是这里的问题。

pdf notepad++ character-encoding

2
推荐指数
1
解决办法
2264
查看次数

如何在 BASH shell 中显示汉字

我需要在 bash 中启动一个二进制文件,并且该二进制文件的输出包含一些汉字。所以我的问题是如何让bash正确显示汉字。顺便说一下,我用的是Centos。

centos character-encoding

2
推荐指数
1
解决办法
2万
查看次数

Vim 航空公司插件坏字符

我无法正确显示 vim-airline 插件。

这就是它的样子 预期的 这是它目前的样子。 实际的

请注意>, 显示不正确。

我尝试了 vim-airline FAQ 上的第一个修复程序,没有任何变化。

fonts vim character-encoding vim-plugins

2
推荐指数
1
解决办法
4478
查看次数

http://d§.cc/ 如何是有效的 URL?

今天在网上浏览时,我遇到了以下网址:

http://d§.cc/
Run Code Online (Sandbox Code Playgroud)

不知何故它有效。在 Firefox 3.6/Mac 中,浏览器似乎将 URL 解释为:

http://xn--d-jca.cc/
Run Code Online (Sandbox Code Playgroud)

在 Safari 5/Mac 中,当我导航到它时 URL 不会改变。

我一直都明白 § 字符(部分符号)等,在 URL 中是无效的。引用RFC 1738

因此,只有字母数字、特殊字符“$-_.+!*'(),”和用于其保留目的的保留字符可以在 URL 中未编码地使用。

这是字符编码的奇怪之处吗?而且,我如何/在哪里可以注册我自己的 § URL?

browser url character-encoding uri special-characters

1
推荐指数
1
解决办法
469
查看次数

为什么 bash 不能显示 æ、ø 和 å 等符号?

我有一个名为 æøå.js 的文件(只是一个示例),当我ls在存储它的目录中运行时,我得到

root@chu:~/projects/someproject/server# ls src
a.js b.js ??????.js

所以看起来这样的符号不能显示。PuTTY 设置为期望 UTF-8,我env看起来像这样

术语=xterm
外壳=/bin/bash
用户=root
LANG=en_GB.UTF-8
SHLVL=1
家=/root
LANGUAGE=en_US:en
LS_OPTIONS=--颜色=自动
PYTHONPATH=:/root/pymodules
日志名=根
_=/usr/bin/env

(我已经从输出中删除了一些东西,因为它们无论如何都不可能相关)

但事情是这样的;当我打开一个文件时,vim我可以毫无问题地输入并查看所有这些符号。所以问题显然只是在 shell/bash 中。我可以提供任何允许 bash 显示这些符号的设置吗?有人也可以解释为什么它现在不能使用 UTF-8 吗?


编辑:这是treeæøå.js 的显示方式

|-- 源代码
| |-- a.js
| |-- b.js
| `-- \303\246\303\270\303\245.js

linux debian character-encoding putty utf-8

1
推荐指数
1
解决办法
4247
查看次数

文件名变得乱七八糟

使用 JDownloader 下载一些文件使我的文件系统上的文件名看起来像“.æ·å²è¬åï¼çç æ¸¯ä¸é”。原始文件名是中文。这是编码问题吗?(原始编码不是 UTF-8)。如果是这样,这能恢复吗?我猜想找到一个编码转换器,并将其转换为 UTF-8。

encoding character-encoding

1
推荐指数
1
解决办法
1587
查看次数

解码文本文件中的奇怪字符

有人给我发了一个文本文件。虽然我可以阅读大部分文档,但有时会出现异常字符。当我在 VIM 中打开它时,我看到 <92> 在它的位置。当我使用 gedit 时,我看到一个字符看起来像一个正方形,正方形中有两个零和 9 和 4。

有没有办法将这些有趣的字符解码回人类可读的等价物?

我还在shell中运行了以下内容:

johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8
Run Code Online (Sandbox Code Playgroud)

所以我认为它是 utf8 编码的。

哦,还有,这是一个文本文档,其中大多数字符都是可读的。只是一些(不是全部)重音字符出现了奇怪的现象。

character-encoding

1
推荐指数
1
解决办法
8568
查看次数

如何解码这个看似GBK编码的字符串?

我有一个.eml包含 MS-Word 附件的电子邮件文件:

------=_Part_239376_662463351.1415605722579
Content-Type: application/msword;
 name="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
 =?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="
Content-Transfer-Encoding: base64
Content-Disposition: attachment;
 filename="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
 =?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="

0M8R4KGxGuEAAAAAAAAA [rest of base64-encoded attachment]
Run Code Online (Sandbox Code Playgroud)

附件base64解码成功,文件内容正常。
但是如何解码文件名呢?

的值filename="" 似乎GBK编码的,但 Python.decode('gbk')对它不起作用,返回相同的字符串:

>>> "1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo".decode('gbk')
u'1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo'
Run Code Online (Sandbox Code Playgroud)

那么,这个字符串是用什么编码的以及如何解码呢?

=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?=
Run Code Online (Sandbox Code Playgroud)

email attachments character-encoding chinese decoding

1
推荐指数
1
解决办法
1389
查看次数