标签: non-ascii-characters

如何使用regex和Notepad ++删除所有非ASCII字符?

我搜索了很多,但没有写到如何从Notepad ++中删除非ASCII字符.

我需要知道在查找和替换中写入什么命令(图片会很棒).

  • 如果我想制作一个白名单并为所有ASCII字/行添加书签,那么非ASCII行将被取消标记

  • 如果文件非常大并且无法选择所有ASCII行,只想选择包含非ASCII字符的行...

regex expression notepad++ non-ascii-characters

136
推荐指数
4
解决办法
21万
查看次数

非ASCII字符的SyntaxError

我试图解析包含一些非ASCII cheracter的xml,

代码如下所示

from lxml import etree
from lxml import objectify
content = u'<?xml version="1.0" encoding="utf-8"?><div>Order date                            : 05/08/2013 12:24:28</div>'
mail.replace('\xa0',' ')
xml = etree.fromstring(mail)
Run Code Online (Sandbox Code Playgroud)

但它显示我在'content = ...'这一行上的错误

syntaxError: Non-ASCII character '\xc2' in file /home/projects/ztest/responce.py on line 3, 
but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
Run Code Online (Sandbox Code Playgroud)

在终端它正在工作,但在eclipse IDE上运行它给了我一个错误.

不知道如何克服..

python encoding lxml non-ascii-characters xml-parsing

89
推荐指数
1
解决办法
16万
查看次数

替换重音字符php

我试图用正常替换替换重音字符.以下是我目前正在做的事情.

    $string = "Éric Cantona";
    $strict = strtolower($string);

    echo "After Lower: ".$strict;

    $patterns[0] = '/[á|â|à|å|ä]/';
    $patterns[1] = '/[ð|é|ê|è|ë]/';
    $patterns[2] = '/[í|î|ì|ï]/';
    $patterns[3] = '/[ó|ô|ò|ø|õ|ö]/';
    $patterns[4] = '/[ú|û|ù|ü]/';
    $patterns[5] = '/æ/';
    $patterns[6] = '/ç/';
    $patterns[7] = '/ß/';
    $replacements[0] = 'a';
    $replacements[1] = 'e';
    $replacements[2] = 'i';
    $replacements[3] = 'o';
    $replacements[4] = 'u';
    $replacements[5] = 'ae';
    $replacements[6] = 'c';
    $replacements[7] = 'ss';

    $strict = preg_replace($patterns, $replacements, $strict);
    echo "Final: ".$strict;
Run Code Online (Sandbox Code Playgroud)

这给了我:

    After Lower: éric cantona
    Final: ric cantona
Run Code Online (Sandbox Code Playgroud)

上面给了我ric cantona我想要的输出 …

php string preg-replace non-ascii-characters

74
推荐指数
12
解决办法
14万
查看次数

删除字符串中的非ascii字符

var str="INFO] :??????, ????????????, ???????, ????? (Higashikurume)";
Run Code Online (Sandbox Code Playgroud)

我需要从字符串中删除所有非ascii字符,

意味着str只包含"INFO](Higashikurume)";

javascript non-ascii-characters

71
推荐指数
5
解决办法
7万
查看次数

从数据文件中删除非ASCII字符

我有一堆csv文件,我正在读入R并包含在一个包/数据文件夹 .rdata格式中.不幸的是,数据中的非ASCII字符未通过检查.该tools软件包有两个功能来检查非ASCII字符(showNonASCIIshowNonASCIIfile),但我似乎无法找到一个删除/清除它们.

在我探索其他UNIX工具之前,在R中执行此操作会很棒,因此我可以维护从原始数据到最终产品的完整工作流程.是否有任何现有的软件包/函数可以帮助我摆脱非ASCII字符?

unicode ascii r non-ascii-characters

70
推荐指数
2
解决办法
4万
查看次数

使用SQL Server在varchar列中查找非ASCII字符

如何使用SQL Server返回包含非ASCII字符的行?
如果你能展示如何为一个列做这件事会很棒.

我现在正在做这样的事情,但它没有用

select *
from Staging.APARMRE1 as ar
where ar.Line like '%[^!-~ ]%'
Run Code Online (Sandbox Code Playgroud)

对于额外的功劳,如果它可以跨越表中的所有 varchar列,那将是非常出色的!在这个解决方案中,返回三列是很好的:

  • 该记录的标识字段.(这将允许使用另一个查询来审核整个记录.)
  • 列名称
  • 带有无效字符的文本
 Id | FieldName | InvalidText       |
----+-----------+-------------------+
 25 | LastName  | Solís             |
 56 | FirstName | François          |
100 | Address1  | 123 Ümlaut street |
Run Code Online (Sandbox Code Playgroud)

无效字符可以是SPACE(32 10)到~(127 10)范围之外的任何字符

t-sql sql-server sql-server-2005 non-ascii-characters

52
推荐指数
5
解决办法
11万
查看次数

为什么这个符号出现在Chrome上,而不是Firefox或Edge?

因此,此网页使用这些符号进行渲染,并且可以在整个网站/应用程序中找到它们,但不会在其他网站上找到 任何人都可以告诉我1)符号是什么2)为什么它只出现在一个浏览器中?

在此输入图像描述

ascii character-encoding non-ascii-characters

43
推荐指数
3
解决办法
6万
查看次数

如何在OS X上的Git中处理文件名中的亚洲字符

我使用的是美国英语OS X 10.6.4,并尝试在Git存储库中存储名称中包含亚洲字符的文件.

好的,让我们在Git工作树中创建这样一个文件:

$ touch ????????????????.txt
Run Code Online (Sandbox Code Playgroud)

Git将它显示为八进制转义的UTF-8格式:

$ git version
git version 1.7.3.1
$ git status
# On branch master
#
# Initial commit
#
# Untracked files:
#   (use "git add <file>..." to include in what will be committed)
#
#   "\343\201\250\343\202\231\343\201\206\343\202\202\343\201\202\343\202\212\343\201\213\343\202\231\343\201\250\343\201\206\343\203\237\343\202\271\343\202\277\343\203\274\343\203\255\343\203\233\343\202\231\343\203\203\343\203\210.txt"
nothing added to commit but untracked files present (use "git add" to track)
Run Code Online (Sandbox Code Playgroud)

不幸的是,我无法将其添加到Git存储库:

$ git add ????????????????.txt
$ git status
# On branch master
#
# Initial commit
#
# Untracked files:
#   (use "git …
Run Code Online (Sandbox Code Playgroud)

git unicode macos non-ascii-characters

39
推荐指数
1
解决办法
5589
查看次数

如何使用Python urlopen获取非ascii url?

我需要从带有非ascii字符的URL获取数据,但urllib2.urlopen拒绝打开资源并引发:

UnicodeEncodeError: 'ascii' codec can't encode character u'\u0131' in position 26: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

我知道URL不符合标准,但我没有机会改变它.

什么是访问由包含使用Python非ASCII字符的URL指向的资源的方式吗?

编辑:换句话说,可以/如何urlopen打开一个URL,如:

http://example.org/Ñöñ-Å?Ç??/
Run Code Online (Sandbox Code Playgroud)

python unicode urllib2 non-ascii-characters urlopen

37
推荐指数
7
解决办法
3万
查看次数

为什么 wprintf 在 Linux 上将 Unicode 中的俄语文本音译为拉丁语?

为什么下面的程序

#include <stdio.h>
#include <wchar.h>

int main() {
  wprintf(L"??????, ???!");
}
Run Code Online (Sandbox Code Playgroud)

打印“女贞,先生!” 在 Linux 上?具体来说,为什么它将 Unicode 中的俄语文本音译为拉丁语,而不是将其转码为 UTF-8 或使用替换字符?

在 Godbolt 上演示此行为:https ://godbolt.org/z/36zEcG

非宽版会printf("??????, ???!")按预期打印此文本(“??????, ???!”)。

c linux printf wchar non-ascii-characters

35
推荐指数
2
解决办法
1783
查看次数