我有一个 pdf 文件,其中包含一些非拉丁欧洲字符。如果我使用突出显示工具复制一些文本,并将其粘贴到另一个程序(单词、记事本)中 - “特殊”字符不能正确传输(我在它们的位置上得到了其他奇怪的字符)。
我曾尝试从 Acrobat Reader 和 Foxit 中复制文本。
有什么我可以在这里复制的吗?
谢谢
我如何在记事本++中找到这个字符(通过unicode搜索)?
如果我去charmap
我选择这个角色
我在 unicode 搜索框中输入 FEC1 并按 ENTER 并找到该字符
我在 fileformat.info 上查找
http://www.fileformat.info/info/unicode/char/fec1/index.htm
Run Code Online (Sandbox Code Playgroud)UTF-8 (hex) 0xEF 0xBB 0x81 (efbb81) UTF-16 (hex) 0xFEC1 (fec1)
如果我按字面意思在搜索框中输入字符,那么它会找到它
但我看不到要搜索什么 unicode 才能找到它
我希望能够在 UTF-8 和 UTF-16 中搜索它
[\uFEC1] 似乎找到了字符,但它找到的不仅仅是那个字符
现在,如果我在那里扔几个 FEC9,那么我看到 [\uFEC1] 似乎也找到了它们
那么,我如何搜索 \uFEC1 并且仅此而已。我也有兴趣通过它的 UTF-8 代码搜索它
可能的重复:
在 Windows 下批量转换用于编码或行尾的文件
我需要这样的工具
http://www.rotatingscrew.com/utfcast.aspx
但该工具应该做相反的事情,将多个文件从 utf-8 转换为 iso-8859-1
是否有适用于 Windows 的工具(php 脚本、批处理文件等)可以执行此操作?谢谢
我正在尝试在 Linux 机器上使用 rsync 将 Windows 机器备份到 Linux 机器(Ubuntu 9.10),并且对于文件名中包含异常字符的文件名,我收到“文件已消失”错误。如果我使用“cp”而不是 rsync,我会收到类似的错误(“没有这样的文件或目录”)。英语 Windows 框中共享中的源代码。
字符之一是撇号字符。
我一直在玩各种 --iconv 选项,但无法解决问题。建议?
我有 Adobe Reader、Okular 和 Document Viewer 作为 pdf 阅读器。我阅读的论文通常是带有数学公式的文本,由 LaTeX 生成。
但是,使用这些查看器在 pdf 文件中搜索特殊字符或数学符号似乎并不完美。我通常做的是从文件中选择关键部分(特殊字符或数学表达式),然后Ctrl+C,然后Ctrl+F,然后Ctrl+V,很多时候观众突出显示的是不正确的。
我相信这对查看者来说是一个重要的功能,并且确实需要在文档中不仅查找单词而且查找特殊字符。
谁能告诉我你是如何解决这个问题的?有没有更好的pdf阅读器或任何智能的搜索方式?
我希望我在 Notepad++ 中创建或打开的每个文档始终(无论如何)以 UTF-8 编码。看来,要么我错过了什么,要么这是不可能的。
在Settings > Preferences... > New Document > Encoding我UTF-8 without BOM在列表中选择并Apply to opened ANSI files选中。我正在使用版本6.7.4。
一切都很好,当我直接在 Notepad++ 中创建一个新文件时。然后,是的,它默认设置了 UTF-8 w/o BOM 编码。但是,当我New > Text Document在 Windows 资源管理器中选择时,创建一个新的空文本文件,然后双击它,它会在 Notepad++ 中打开,ANSI默认情况下是编码。
怎么了?对我来说,选项Apply to opened ANSI files似乎根本不起作用。
当存在编码问题时,我们都熟悉黑色菱形 (?) 内的白色问号。这个“角色”有正式名称吗?或者它只是被称为“黑色钻石内的白色问号”?如果有这个名字会是什么?
tree我在 Debian 中安装的很棒的应用程序可以apt-get install tree选择使用 ANSI 图形绘制其输出。它的输出现在看起来像这样:
.
tqq node_modules
x tqq 咖啡脚本
xtqq生态
x tqq快递
x tqq 永远
x mqq 手写笔
tqq 包.json
微信源
mqq daemontest.coffee
这显然是错误的。这些是 myLANG=en_GB.UTF-8 UTF-8和LC_ALL=Cenv 变量。PuTTY 也设置为期待 UTF-8。如果我将 PuTTY 更改为“使用字体编码”,那么tree -A看起来是正确的,但是npm list会中断并如下所示:
├── coffee-script@1.2.0 ├─┬eco@1.1.0-rc-3 │└── strscan@1.0.1 ├─┬ express@2.5.5 │ ├─┬ connect@1.8.5 ││â”─â€可怕@1.0.8 │ ├── mime@1.2.4 │ ├── mkdirp@0.0.7 │└── qs@0.4.0 ...
所有这些东西都应该正常工作,所以我猜我的设置在某个地方是错误的。谁能帮我调到准确的位置?
编辑:我env现在看起来像这样。问题依然存在
root@chu:~# env 术语=腻子 外壳=/bin/bash SSH_CLIENT=**审查** SSH_TTY=/dev/pts/1 用户=root LS_COLORS=rs=**因为文字墙而被移除** …
我有几个 C++ 源文件(一个 .cpp 和一个 .h),它们被Linux 中的命令报告为类型数据file。当我file -bi对这些文件运行命令时,我得到了这个输出(每个文件的输出相同):
application/octet-stream; charset=binary
Run Code Online (Sandbox Code Playgroud)
每个文件都是纯文本文件(我可以在 中查看它们vi)。是什么导致file误报这些文件的类型?它可能是某种Unicode的东西吗?这两个文件都是在 Windows 环境中创建的(使用 Visual Studio 2005),但它们是在 Linux 中编译的(它是一个跨平台应用程序)。
任何想法,将不胜感激。
更新:我在两个文件中都没有看到任何空字符。我在 .cpp 文件(在注释块中)中发现了一些扩展字符,将它们删除,但file仍然报告相同的编码。我试过在 SlickEdit 中强制编码,但这似乎没有效果。当我在 中打开文件时vim,我一[converted]打开文件就会看到一行。也许我可以让 vim 强制编码?