标签: character-encoding

E:\\folder\\files>dir\n Volume in drive E is data\n Volume Serial Number is 5841-C30E\n\n Directory of E:\\folder\\files  \n\n07/05/2016  07:46 PM    <DIR>          .\n07/05/2016  07:46 PM    <DIR>          ..\n12/01/2015  11:12 AM            14,105 file with o" character.xlsx\n01/22/2015  05:30 PM            11,598 file with correct \xc3\xb6 character.xlsx\n               2 File(s)         25,703 bytes\n               2 Dir(s)  2,727,491,600,384 bytes free\n

Run Code Online (Sandbox Code Playgroud)\n\n

我已经更改了文件和目录名称，但您会明白的。

\n\n

你知道这些名字是怎么来的吗？也许它们是使用其他平台或工具复制或创建的？

\n\n

如何批量查找并重命名所有问题文件？我查看了几个 GUI 重命名实用程序，但它们没有发现问题，并且仅适用于 Windows 资源管理器中显示的名称。

\n\n

驱动器上的文件系统是 ReFS，这可能与此有关吗？

\n\n

编辑：运行 PowerShell …

windows encoding filesystems character-encoding smb

nix*_*xer

2016 07-08

5
推荐指数

2
解决办法

1万
查看次数

Windows-1252 和 ANSI 编码有什么区别？

我正在尝试通过工具将UTF-8编码转换为ANSI编码。
但它显示西欧 (Windows)-1252而不是ANSI。

它们是同一件事吗？我应该继续这个吗？

encoding character-encoding ansi

Abd*_*Abd

2022 10-20

5
推荐指数

1
解决办法

2万
查看次数

Windows 10 所有替代代码和重音字符均替换为 ?

从今天早上开始，我输入的所有 alt 代码（例如 alt 256、alt 26、alt 144...）都被“\xef\xbf\xbd”字符替换。\n在带有重音字符的 Windows 中有时也会发生这种情况（如 \xc3\xa9 \xc3\xa0 \xc3\xaf ...）。当我尝试卸载/安装某些程序时，IE 可能会从一个提示窗口到另一个提示窗口出现此类问题：

\n\n

有趣的是：它不是 100% 可复制的。如果我尝试从屏幕截图中恢复窗口，我可能会正确显示它，也可能不会。之前显示正确的其他一些下次会显示一些 \xef\xbf\xbd 。有点随机。

\n\n

不知道这是从哪里来的。我不是那台计算机的所有者，也不是唯一使用它的人（这是学校的计算机）。不过我有管理员权限。知道如何解决这个问题吗？

character-encoding alt-code windows-10

L0L*_*ock

lucky-day

5
推荐指数

1
解决办法

1502
查看次数

如何让Chrome URL显示空格而不是%20

Firefox 等浏览器会显示包含空格（包括 nbsp）的 URL，其中包含实际空格 ( )；Chrome 始终在地址栏中将空格显示为%20（以及 nbsp 的显示为）。%C2%A0（即，Firefoxhttp://example.com/A B在地址栏中显示，而 Chrome 显示http://example.com/A%20B。）有没有办法让 Chrome 显示空格而不是%20？


        
          url
        
          google-chrome
        
          character-encoding
        
        
          
            
            
               Nix*_*ova
            
          
          
            
               lucky-day


    
    
    
      
        
            使用 pdftotext 将 PDF 转换为文本时可以修改编码吗？
        
        有时当我pdftotext这样做时会产生完美的文本。我认为这是因为实际的 unicode 文本数据直接嵌入到 PDF 本身中，并且只需读出即可。
\n\n但其他时候（大约一半或更多的文档不只是直接扫描的图像）它会导致〜奇怪的字形〜代替诸如变音符号和重音符号之类的东西，有时甚至是看起来模糊的字母。
\n\n例如，这个约鲁巴语词典 PDF就存在这些问题。如果你运行这个：
\n\npdftotext yoruba.pdf yoruba.txt\n
Run Code Online (Sandbox Code Playgroud)\n\n你最终会看到这些词散布在各处：
\n\nexpected     actual\n--------     ------\nlairot\xe1\xba\xb9le    lairot4ille\nik\xe1\xbb\x8dsil\xe1\xba\xb9      ikljlsil4il\nlog\xc3\xb3         logb\n
Run Code Online (Sandbox Code Playgroud)\n\n请注意，重音符号\xc3\xb3变成了字母b。但并不是每个 \xc3\xb3 都变成了 doc 中的 ab。许多人这样做，但不是全部。与\xe1\xba\xb9a相同4il。许多人都变成这样，可能是所有人。大多数时候（我的感觉是）更晦涩的重音符号/变音符号\xe1\xba\xb9会被转换成陌生的字符或字符序列。
\n\n为什么是这样？是 OCR 的东西吗？或者PDF实际上是否嵌入了纯文本（即它不是图像的扫描文档）？然而，它在某种程度上没有被正确解码。我想知道这个问题的答案，所以至少我知道这是 OCR 问题或编码/解码问题。
\n\n如果这是一个编码问题，那就很有趣了。那么我的问题是，我可以告诉pdftotext使用一些晦涩的解码技术吗？或者是什么。
\n\n我提出这个问题的部分原因是我最近发现了一些网页是用 或 编码的ucs2，latin1有些甚至是用一些奇怪的windows2255或某种编码编码的。因此，我必须修改编码/解码才能正确提取 HTML 文档中的文本。我想知道在这种情况下同样的情况是否也适用于 PDF。
\n\n另一个遇到此问题的文档是纳瓦霍词典。我不知道这是 OCR …
 
        
          encoding
        
          pdf
        
          ocr
        
          unicode
        
          character-encoding
        
        
          
            
            
               Lan*_*nce
            
          
          
            
               lucky-day 
            
          
        
      
      
        
          
          5
推荐指数
          0
解决办法
          346
查看次数
          
        
      
    
    
    
    
      
        
            Grep 搜索 ISO-8859-1 编码文件中的文本
        
        我正在尝试grep从 ISO-8859-1 编码文件中搜索文本模式：wordsList
\n当我执行搜索时，将返回所有匹配项，但重音字符将被删除。例如，如果我想搜索所有以 结尾的单词-ese：
\n$ LC_ALL=pt_PT.ISO-8859-1  grep -a ese\\$  wordsList\n
Run Code Online (Sandbox Code Playgroud)\n结果是 58 场比赛。其中一个匹配项是单词hip\xc3\xb3tese，但打印出来时显示为hiptese（缺少\xc3\xb3字符）。如何防止grep输出去除重音字符？
\n 
        
          linux
        
          grep
        
          character-encoding
        
        
          
            
            
               Jef*_*uer
            
          
          
            
               2024 01-08 
            
          
        
      
      
        
          
          5
推荐指数
          1
解决办法
          766
查看次数


  
    
      标签 统计
      
      
        character-encoding  ×10
      
      
        encoding  ×4
      
      
        google-chrome  ×2
      
      
        windows  ×2
      
      
        alt-code  ×1
      
      
        ansi  ×1
      
      
        chinese  ×1
      
      
        conversion  ×1
      
      
        filesystems  ×1
      
      
        grep  ×1
      
      
        linux  ×1
      
      
        microsoft-office  ×1
      
      
        microsoft-word-2010  ×1
      
      
        ocr  ×1
      
      
        pdf  ×1
      
      
        smb  ×1
      
      
        software-rec  ×1
      
      
        unicode  ×1
      
      
        url  ×1
      
      
        utf-8  ×1
      
      
        vim  ×1
      
      
        windows-10  ×1

标签 统计

标签统计