可能的重复:
在 Windows 下批量转换用于编码或行尾的文件
嘿!
我有许多以 ANSI (iso-8859-1) 格式编码的文件,我想将其更改为 utf8。
我正在使用记事本 ++ 一一转换,但我想知道是否有任何应用程序可以快速简便地转换它们(我有很多文件)。
有谁知道一款可以做到这一点的应用程序?(免费的应用程序会很棒)
谢谢
我有一个文档不是用英语写的,而是用其他欧洲语言写的,当我在 MS Word 2010 中打开它时,有几个字符显示不正确。如何在 Word 2010 中更改文档的编码?
该文件的扩展名为 .doc 。
encoding microsoft-office character-encoding microsoft-word-2010
我发现当我在 VIM 中输入中文字符(用 UTF-8 编码)时,我根本看不到它们,尽管它们确实存在。我可以将它们复制并粘贴到其他文本编辑器中,看起来一切都很好。我该如何解决这个问题?
我的 Windows 服务器上有一些文件名称中包含某些重音字符。在 Windows 资源管理器上,文件正常显示,但在命令提示符下使用默认设置运行“dir”会显示替换字符。
\n\n例如,字符\xc3\xb6显示如o"列表中所示。当通过 SMB 从其他平台访问这些文件时,这会导致问题,可能是因为编码/代码页冲突。并非所有文件都存在该问题,而且我不知道问题文件来自何处。
例子:
\n\nE:\\folder\\files>dir\n Volume in drive E is data\n Volume Serial Number is 5841-C30E\n\n Directory of E:\\folder\\files \n\n07/05/2016 07:46 PM <DIR> .\n07/05/2016 07:46 PM <DIR> ..\n12/01/2015 11:12 AM 14,105 file with o" character.xlsx\n01/22/2015 05:30 PM 11,598 file with correct \xc3\xb6 character.xlsx\n 2 File(s) 25,703 bytes\n 2 Dir(s) 2,727,491,600,384 bytes free\nRun Code Online (Sandbox Code Playgroud)\n\n我已经更改了文件和目录名称,但您会明白的。
\n\n你知道这些名字是怎么来的吗?也许它们是使用其他平台或工具复制或创建的?
\n\n如何批量查找并重命名所有问题文件?我查看了几个 GUI 重命名实用程序,但它们没有发现问题,并且仅适用于 Windows 资源管理器中显示的名称。
\n\n驱动器上的文件系统是 ReFS,这可能与此有关吗?
\n\n编辑:运行 PowerShell …
我正在尝试通过工具将UTF-8编码转换为ANSI编码。
但它显示西欧 (Windows)-1252而不是ANSI。
它们是同一件事吗?我应该继续这个吗?
从今天早上开始,我输入的所有 alt 代码(例如 alt 256、alt 26、alt 144...)都被“\xef\xbf\xbd”字符替换。\n在带有重音字符的 Windows 中有时也会发生这种情况(如 \xc3\xa9 \xc3\xa0 \xc3\xaf ...)。当我尝试卸载/安装某些程序时,IE 可能会从一个提示窗口到另一个提示窗口出现此类问题:
\n\n\n\n有趣的是:它不是 100% 可复制的。如果我尝试从屏幕截图中恢复窗口,我可能会正确显示它,也可能不会。之前显示正确的其他一些下次会显示一些 \xef\xbf\xbd 。有点随机。
\n\n不知道这是从哪里来的。我不是那台计算机的所有者,也不是唯一使用它的人(这是学校的计算机)。不过我有管理员权限。知道如何解决这个问题吗?
\nFirefox 等浏览器会显示包含空格(包括 nbsp)的 URL,其中包含实际空格 ( );Chrome 始终在地址栏中将空格显示为%20(以及 nbsp 的显示为)。%C2%A0(即,Firefoxhttp://example.com/A B在地址栏中显示,而 Chrome 显示http://example.com/A%20B。)有没有办法让 Chrome 显示空格而不是%20?
有时当我pdftotext这样做时会产生完美的文本。我认为这是因为实际的 unicode 文本数据直接嵌入到 PDF 本身中,并且只需读出即可。
但其他时候(大约一半或更多的文档不只是直接扫描的图像)它会导致〜奇怪的字形〜代替诸如变音符号和重音符号之类的东西,有时甚至是看起来模糊的字母。
\n\n例如,这个约鲁巴语词典 PDF就存在这些问题。如果你运行这个:
\n\npdftotext yoruba.pdf yoruba.txt\nRun Code Online (Sandbox Code Playgroud)\n\n你最终会看到这些词散布在各处:
\n\nexpected actual\n-------- ------\nlairot\xe1\xba\xb9le lairot4ille\nik\xe1\xbb\x8dsil\xe1\xba\xb9 ikljlsil4il\nlog\xc3\xb3 logb\nRun Code Online (Sandbox Code Playgroud)\n\n请注意,重音符号\xc3\xb3变成了字母b。但并不是每个 \xc3\xb3 都变成了 doc 中的 ab。许多人这样做,但不是全部。与\xe1\xba\xb9a相同4il。许多人都变成这样,可能是所有人。大多数时候(我的感觉是)更晦涩的重音符号/变音符号\xe1\xba\xb9会被转换成陌生的字符或字符序列。
为什么是这样?是 OCR 的东西吗?或者PDF实际上是否嵌入了纯文本(即它不是图像的扫描文档)?然而,它在某种程度上没有被正确解码。我想知道这个问题的答案,所以至少我知道这是 OCR 问题或编码/解码问题。
\n\n如果这是一个编码问题,那就很有趣了。那么我的问题是,我可以告诉pdftotext使用一些晦涩的解码技术吗?或者是什么。
我提出这个问题的部分原因是我最近发现了一些网页是用 或 编码的ucs2,latin1有些甚至是用一些奇怪的windows2255或某种编码编码的。因此,我必须修改编码/解码才能正确提取 HTML 文档中的文本。我想知道在这种情况下同样的情况是否也适用于 PDF。
另一个遇到此问题的文档是纳瓦霍词典。我不知道这是 OCR …
我正在尝试grep从 ISO-8859-1 编码文件中搜索文本模式:wordsList
当我执行搜索时,将返回所有匹配项,但重音字符将被删除。例如,如果我想搜索所有以 结尾的单词-ese:
$ LC_ALL=pt_PT.ISO-8859-1 grep -a ese\\$ wordsList\nRun Code Online (Sandbox Code Playgroud)\n结果是 58 场比赛。其中一个匹配项是单词hip\xc3\xb3tese,但打印出来时显示为hiptese(缺少\xc3\xb3字符)。如何防止grep输出去除重音字符?
encoding ×4
windows ×2
alt-code ×1
ansi ×1
chinese ×1
conversion ×1
filesystems ×1
grep ×1
linux ×1
ocr ×1
pdf ×1
smb ×1
software-rec ×1
unicode ×1
url ×1
utf-8 ×1
vim ×1
windows-10 ×1