标签: character-encoding

从 PDF 中剪切和粘贴越南语字符

我正在尝试将一堆越南语文本从 PDF 文档复制/粘贴到 Notepad++（或任何东西，没有任何效果）。粘贴的文本与源文本不同。解决此问题的最佳方法是什么？

例如：

源文本：（源文本见截图）在此处输入图片说明

粘贴文字：木瓜沙拉 ~ GÕi ñu ñû Tôm

非常感谢。

编辑：看来，如果源是 Word 文档，它会按预期复制和粘贴。PDF 是这里的问题。

pdf notepad++ character-encoding

Mah*_*ery

2012 01-20

2
推荐指数

1
解决办法

2264
查看次数

如何在 BASH shell 中显示汉字

我需要在 bash 中启动一个二进制文件，并且该二进制文件的输出包含一些汉字。所以我的问题是如何让bash正确显示汉字。顺便说一下，我用的是Centos。

centos character-encoding

Hai*_*ang

lucky-day

2
推荐指数

1
解决办法

2万
查看次数

Vim 航空公司插件坏字符

我无法正确显示 vim-airline 插件。

这就是它的样子预期的这是它目前的样子。实际的

请注意>, 显示不正确。

我尝试了 vim-airline FAQ 上的第一个修复程序，没有任何变化。

fonts vim character-encoding vim-plugins

bem*_*mug

2014 08-26

2
推荐指数

1
解决办法

4478
查看次数

http://d§.cc/ 如何是有效的 URL？

今天在网上浏览时，我遇到了以下网址：

http://d§.cc/

Run Code Online (Sandbox Code Playgroud)

不知何故它有效。在 Firefox 3.6/Mac 中，浏览器似乎将 URL 解释为：

http://xn--d-jca.cc/

Run Code Online (Sandbox Code Playgroud)

在 Safari 5/Mac 中，当我导航到它时 URL 不会改变。

我一直都明白 § 字符（部分符号）等，在 URL 中是无效的。引用RFC 1738：

因此，只有字母数字、特殊字符“$-_.+!*'(),”和用于其保留目的的保留字符可以在 URL 中未编码地使用。

这是字符编码的奇怪之处吗？而且，我如何/在哪里可以注册我自己的 § URL？

browser url character-encoding uri special-characters

Bun*_*gle

lucky-day

1
推荐指数

1
解决办法

469
查看次数

为什么 bash 不能显示 æ、ø 和 å 等符号？

我有一个名为 æøå.js 的文件（只是一个示例），当我ls在存储它的目录中运行时，我得到

root@chu:~/projects/someproject/server# ls src
a.js b.js ??????.js

所以看起来这样的符号不能显示。PuTTY 设置为期望 UTF-8，我env看起来像这样

术语=xterm
外壳=/bin/bash
用户=root
LANG=en_GB.UTF-8
SHLVL=1
家=/root
LANGUAGE=en_US:en
LS_OPTIONS=--颜色=自动
PYTHONPATH=:/root/pymodules
日志名=根
_=/usr/bin/env

（我已经从输出中删除了一些东西，因为它们无论如何都不可能相关）

但事情是这样的；当我打开一个文件时，vim我可以毫无问题地输入并查看所有这些符号。所以问题显然只是在 shell/bash 中。我可以提供任何允许 bash 显示这些符号的设置吗？有人也可以解释为什么它现在不能使用 UTF-8 吗？

编辑：这是treeæøå.js 的显示方式

|-- 源代码
| |-- a.js
| |-- b.js
| `-- \303\246\303\270\303\245.js

linux debian character-encoding putty utf-8

Hub*_*bro

lucky-day

1
推荐指数

1
解决办法

4247
查看次数

文件名变得乱七八糟

使用 JDownloader 下载一些文件使我的文件系统上的文件名看起来像“.æ·å²è¬åï¼çç æ¸¯ä¸é”。原始文件名是中文。这是编码问题吗？（原始编码不是 UTF-8）。如果是这样，这能恢复吗？我猜想找到一个编码转换器，并将其转换为 UTF-8。

encoding character-encoding

Sta*_*tan

lucky-day

1
推荐指数

1
解决办法

1587
查看次数

解码文本文件中的奇怪字符

有人给我发了一个文本文件。虽然我可以阅读大部分文档，但有时会出现异常字符。当我在 VIM 中打开它时，我看到 <92> 在它的位置。当我使用 gedit 时，我看到一个字符看起来像一个正方形，正方形中有两个零和 9 和 4。

有没有办法将这些有趣的字符解码回人类可读的等价物？

我还在shell中运行了以下内容：

johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8

Run Code Online (Sandbox Code Playgroud)

所以我认为它是 utf8 编码的。

哦，还有，这是一个文本文档，其中大多数字符都是可读的。只是一些（不是全部）重音字符出现了奇怪的现象。

character-encoding

Joh*_*ohn

2013 05-11

1
推荐指数

1
解决办法

8568
查看次数

如何解码这个看似GBK编码的字符串？

我有一个.eml包含 MS-Word 附件的电子邮件文件：

------=_Part_239376_662463351.1415605722579
Content-Type: application/msword;
 name="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
 =?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="
Content-Transfer-Encoding: base64
Content-Disposition: attachment;
 filename="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
 =?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="

0M8R4KGxGuEAAAAAAAAA [rest of base64-encoded attachment]

Run Code Online (Sandbox Code Playgroud)

附件base64解码成功，文件内容正常。
但是如何解码文件名呢？

的值filename="" 似乎是GBK编码的，但 Python.decode('gbk')对它不起作用，返回相同的字符串：

>>> "1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo".decode('gbk')
u'1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo'

Run Code Online (Sandbox Code Playgroud)

那么，这个字符串是用什么编码的以及如何解码呢？

=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?=

Run Code Online (Sandbox Code Playgroud)

email attachments character-encoding chinese decoding

Nic*_*oul

2016 05-31

1
推荐指数

1
解决办法

1389
查看次数

标签统计

character-encoding ×8

attachments ×1

browser ×1

centos ×1

chinese ×1

debian ×1

decoding ×1

email ×1

encoding ×1

fonts ×1

linux ×1

notepad++ ×1

pdf ×1

putty ×1

special-characters ×1

uri ×1

url ×1

utf-8 ×1

vim ×1

vim-plugins ×1

标签 统计

标签统计