我正在尝试将一堆越南语文本从 PDF 文档复制/粘贴到 Notepad++(或任何东西,没有任何效果)。粘贴的文本与源文本不同。解决此问题的最佳方法是什么?
例如:
源文本:(源文本见截图)

粘贴文字:木瓜沙拉 ~ GÕi ñu ñû Tôm
非常感谢。
编辑:看来,如果源是 Word 文档,它会按预期复制和粘贴。PDF 是这里的问题。
我需要在 bash 中启动一个二进制文件,并且该二进制文件的输出包含一些汉字。所以我的问题是如何让bash正确显示汉字。顺便说一下,我用的是Centos。
我无法正确显示 vim-airline 插件。
这就是它的样子
这是它目前的样子。

请注意>, 显示不正确。
我尝试了 vim-airline FAQ 上的第一个修复程序,没有任何变化。
今天在网上浏览时,我遇到了以下网址:
http://d§.cc/
Run Code Online (Sandbox Code Playgroud)
不知何故它有效。在 Firefox 3.6/Mac 中,浏览器似乎将 URL 解释为:
http://xn--d-jca.cc/
Run Code Online (Sandbox Code Playgroud)
在 Safari 5/Mac 中,当我导航到它时 URL 不会改变。
我一直都明白 § 字符(部分符号)等,在 URL 中是无效的。引用RFC 1738:
因此,只有字母数字、特殊字符“$-_.+!*'(),”和用于其保留目的的保留字符可以在 URL 中未编码地使用。
这是字符编码的奇怪之处吗?而且,我如何/在哪里可以注册我自己的 § URL?
我有一个名为 æøå.js 的文件(只是一个示例),当我ls在存储它的目录中运行时,我得到
root@chu:~/projects/someproject/server# ls src a.js b.js ??????.js
所以看起来这样的符号不能显示。PuTTY 设置为期望 UTF-8,我env看起来像这样
术语=xterm 外壳=/bin/bash 用户=root LANG=en_GB.UTF-8 SHLVL=1 家=/root LANGUAGE=en_US:en LS_OPTIONS=--颜色=自动 PYTHONPATH=:/root/pymodules 日志名=根 _=/usr/bin/env
(我已经从输出中删除了一些东西,因为它们无论如何都不可能相关)
但事情是这样的;当我打开一个文件时,vim我可以毫无问题地输入并查看所有这些符号。所以问题显然只是在 shell/bash 中。我可以提供任何允许 bash 显示这些符号的设置吗?有人也可以解释为什么它现在不能使用 UTF-8 吗?
编辑:这是treeæøå.js 的显示方式
|-- 源代码 | |-- a.js | |-- b.js | `-- \303\246\303\270\303\245.js
使用 JDownloader 下载一些文件使我的文件系统上的文件名看起来像“.æ·å²è¬åï¼çç æ¸¯ä¸é”。原始文件名是中文。这是编码问题吗?(原始编码不是 UTF-8)。如果是这样,这能恢复吗?我猜想找到一个编码转换器,并将其转换为 UTF-8。
有人给我发了一个文本文件。虽然我可以阅读大部分文档,但有时会出现异常字符。当我在 VIM 中打开它时,我看到 <92> 在它的位置。当我使用 gedit 时,我看到一个字符看起来像一个正方形,正方形中有两个零和 9 和 4。
有没有办法将这些有趣的字符解码回人类可读的等价物?
我还在shell中运行了以下内容:
johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8
Run Code Online (Sandbox Code Playgroud)
所以我认为它是 utf8 编码的。
哦,还有,这是一个文本文档,其中大多数字符都是可读的。只是一些(不是全部)重音字符出现了奇怪的现象。
我有一个.eml包含 MS-Word 附件的电子邮件文件:
------=_Part_239376_662463351.1415605722579
Content-Type: application/msword;
name="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="
Content-Transfer-Encoding: base64
Content-Disposition: attachment;
filename="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="
0M8R4KGxGuEAAAAAAAAA [rest of base64-encoded attachment]
Run Code Online (Sandbox Code Playgroud)
附件base64解码成功,文件内容正常。
但是如何解码文件名呢?
的值filename="" 似乎是GBK编码的,但 Python.decode('gbk')对它不起作用,返回相同的字符串:
>>> "1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo".decode('gbk')
u'1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo'
Run Code Online (Sandbox Code Playgroud)
那么,这个字符串是用什么编码的以及如何解码呢?
=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?=
Run Code Online (Sandbox Code Playgroud)