标签: character-encoding

在 Windows 上从 ANSI 转换为 UTF8 的应用程序

可能的重复:
在 Windows 下批量转换用于编码或行尾的文件

嘿!

我有许多以 ANSI (iso-8859-1) 格式编码的文件,我想将其更改为 utf8。

我正在使用记事本 ++ 一一转换,但我想知道是否有任何应用程序可以快速简便地转换它们(我有很多文件)。

有谁知道一款可以做到这一点的应用程序?(免费的应用程序会很棒)

谢谢

windows software-rec character-encoding conversion utf-8

6
推荐指数
2
解决办法
3万
查看次数

MS Office 2010 Word 更改字符编码

我有一个文档不是用英语写的,而是用其他欧洲语言写的,当我在 MS Word 2010 中打开它时,有几个字符显示不正确。如何在 Word 2010 中更改文档的编码?

该文件的扩展名为 .doc 。

encoding microsoft-office character-encoding microsoft-word-2010

6
推荐指数
1
解决办法
3万
查看次数

LSEP 出现在特定网页上,我可以对 Chrome 做些什么来解决这个问题吗?

在 Chrome 中访问此站点时,会出现LSEP符号而不是行分隔符 (UTF-8) 字符:

在此处输入图片说明

当我在 Edge 中访问该站点时,它看起来像这样:

在此处输入图片说明

有没有办法为 Chrome 网络浏览器解决这个问题?

我已经尝试将 Chrome 中的编码更改为 UTF-8。

google-chrome character-encoding

6
推荐指数
1
解决办法
4741
查看次数

VIM中看不到汉字

我发现当我在 VIM 中输入中文字符(用 UTF-8 编码)时,我根本看不到它们,尽管它们确实存在。我可以将它们复制并粘贴到其他文本编辑器中,看起来一切都很好。我该如何解决这个问题?

vim character-encoding chinese

5
推荐指数
1
解决办法
8978
查看次数

确定并更改 Windows 上的文件名编码

我的 Windows 服务器上有一些文件名称中包含某些重音字符。在 Windows 资源管理器上,文件正常显示,但在命令提示符下使用默认设置运行“dir”会显示替换字符。

\n\n

例如,字符\xc3\xb6显示如o"列表中所示。当通过 SMB 从其他平台访问这些文件时,这会导致问题,可能是因为编码/代码页冲突。并非所有文件都存在该问题,而且我不知道问题文件来自何处。

\n\n

例子:

\n\n
E:\\folder\\files>dir\n Volume in drive E is data\n Volume Serial Number is 5841-C30E\n\n Directory of E:\\folder\\files  \n\n07/05/2016  07:46 PM    <DIR>          .\n07/05/2016  07:46 PM    <DIR>          ..\n12/01/2015  11:12 AM            14,105 file with o" character.xlsx\n01/22/2015  05:30 PM            11,598 file with correct \xc3\xb6 character.xlsx\n               2 File(s)         25,703 bytes\n               2 Dir(s)  2,727,491,600,384 bytes free\n
Run Code Online (Sandbox Code Playgroud)\n\n

我已经更改了文件和目录名称,但您会明白的。

\n\n

你知道这些名字是怎么来的吗?也许它们是使用其他平台或工具复制或创建的?

\n\n

如何批量查找并重命名所有问题文件?我查看了几个 GUI 重命名实用程序,但它们没有发现问题,并且仅适用于 Windows 资源管理器中显示的名称。

\n\n

驱动器上的文件系统是 ReFS,这可能与此有关吗?

\n\n

编辑:运行 PowerShell …

windows encoding filesystems character-encoding smb

5
推荐指数
2
解决办法
1万
查看次数

Windows-1252 和 ANSI 编码有什么区别?

我正在尝试通过工具将UTF-8编码转换为ANSI编码。
但它显示西欧 (Windows)-1252而不是ANSI

它们是同一件事吗?我应该继续这个吗?

encoding character-encoding ansi

5
推荐指数
1
解决办法
2万
查看次数

Windows 10 所有替代代码和重音字符均替换为 ?

从今天早上开始,我输入的所有 alt 代码(例如 alt 256、alt 26、alt 144...)都被“\xef\xbf\xbd”字符替换。\n在带有重音字符的 Windows 中有时也会发生这种情况(如 \xc3\xa9 \xc3\xa0 \xc3\xaf ...)。当我尝试卸载/安装某些程序时,IE 可能会从一个提示窗口到另一个提示窗口出现此类问题:

\n\n

例子

\n\n

有趣的是:它不是 100% 可复制的。如果我尝试从屏幕截图中恢复窗口,我可能会正确显示它,也可能不会。之前显示正确的其他一些下次会显示一些 \xef\xbf\xbd 。有点随机。

\n\n

不知道这是从哪里来的。我不是那台计算机的所有者,也不是唯一使用它的人(这是学校的计算机)。不过我有管理员权限。知道如何解决这个问题吗?

\n

character-encoding alt-code windows-10

5
推荐指数
1
解决办法
1502
查看次数

如何让Chrome URL显示空格而不是%20

Firefox 等浏览器会显示包含空格(包括 nbsp)的 URL,其中包含实际空格 ( );Chrome 始终在地址栏中将空格显示为%20(以及 nbsp 的显示为)。%C2%A0(即,Firefoxhttp://example.com/A B在地址栏中显示,而 Chrome 显示http://example.com/A%20B。)有没有办法让 Chrome 显示空格而不是%20

url google-chrome character-encoding

5
推荐指数
1
解决办法
1352
查看次数

使用 pdftotext 将 PDF 转换为文本时可以修改编码吗?

有时当我pdftotext这样做时会产生完美的文本。我认为这是因为实际的 unicode 文本数据直接嵌入到 PDF 本身中,并且只需读出即可。

\n\n

但其他时候(大约一半或更多的文档不只是直接扫描的图像)它会导致〜奇怪的字形〜代替诸如变音符号和重音符号之类的东西,有时甚至是看起来模糊的字母。

\n\n

例如,这个约鲁巴语词典 PDF就存在这些问题。如果你运行这个:

\n\n
pdftotext yoruba.pdf yoruba.txt\n
Run Code Online (Sandbox Code Playgroud)\n\n

你最终会看到这些词散布在各处:

\n\n
expected     actual\n--------     ------\nlairot\xe1\xba\xb9le    lairot4ille\nik\xe1\xbb\x8dsil\xe1\xba\xb9      ikljlsil4il\nlog\xc3\xb3         logb\n
Run Code Online (Sandbox Code Playgroud)\n\n

请注意,重音符号\xc3\xb3变成了字母b。但并不是每个 \xc3\xb3 都变成了 doc 中的 ab。许多人这样做,但不是全部。与\xe1\xba\xb9a相同4il。许多人都变成这样,可能是所有人。大多数时候(我的感觉是)更晦涩的重音符号/变音符号\xe1\xba\xb9会被转换成陌生的字符或字符序列

\n\n

为什么是这样?是 OCR 的东西吗?或者PDF实际上是否嵌入了纯文本(即它不是图像的扫描文档)?然而,它在某种程度上没有被正确解码。我想知道这个问题的答案,所以至少我知道这是 OCR 问题或编码/解码问题。

\n\n

如果这是一个编码问题,那就很有趣了。那么我的问题是,我可以告诉pdftotext使用一些晦涩的解码技术吗?或者是什么。

\n\n

我提出这个问题的部分原因是我最近发现了一些网页是用 或 编码的ucs2latin1有些甚至是用一些奇怪的windows2255或某种编码编码的。因此,我必须修改编码/解码才能正确提取 HTML 文档中的文本。我想知道在这种情况下同样的情况是否也适用于 PDF。

\n\n

另一个遇到此问题的文档是纳瓦霍词典。我不知道这是 OCR …

encoding pdf ocr unicode character-encoding

5
推荐指数
0
解决办法
346
查看次数

Grep 搜索 ISO-8859-1 编码文件中的文本

我正在尝试grep从 ISO-8859-1 编码文件中搜索文本模式:wordsList

\n

当我执行搜索时,将返回所有匹配项,但重音字符将被删除。例如,如果我想搜索所有以 结尾的单词-ese

\n
$ LC_ALL=pt_PT.ISO-8859-1  grep -a ese\\$  wordsList\n
Run Code Online (Sandbox Code Playgroud)\n

结果是 58 场比赛。其中一个匹配项是单词hip\xc3\xb3tese,但打印出来时显示为hiptese(缺少\xc3\xb3字符)。如何防止grep输出去除重音字符?

\n

linux grep character-encoding

5
推荐指数
1
解决办法
766
查看次数