标签: unicode

(grep)正则表达式匹配非ASCII字符?

在Linux上,我有一个包含大量文件的目录.其中一些具有非ASCII字符,但它们都是有效的UTF-8.一个程序有一个错误,阻止它使用非ASCII文件名,我必须找出有多少受影响.我打算这样做find,然后做一个grep打印非ASCII字符,然后做一个wc -l找到数字.它不一定是grep; 我可以使用任何标准的Unix 正则表达式,如Perl,sed,AWK等.

但是,是否存在"任何不是ASCII字符的字符"的正则表达式?

regex unicode grep ascii

157
推荐指数
3
解决办法
13万
查看次数

Python:在Unicode转义字符串上使用.format()

我使用的是Python 2.6.5.我的代码需要使用"超过或等于"的符号.在这里:

>>> s = u'\u2265'
>>> print s
>>> ?
>>> print "{0}".format(s)
Traceback (most recent call last):
     File "<input>", line 1, in <module> 
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2265'
  in position 0: ordinal not in range(128)`  
Run Code Online (Sandbox Code Playgroud)

为什么我会收到此错误?有没有正确的方法来做到这一点?我需要使用该.format()功能.

python string unicode python-2.x

154
推荐指数
3
解决办法
8万
查看次数

在Django中保存unicode字符串时,MySQL"错误的字符串值"错误

尝试将first_name,last_name保存到Django的auth_user模型时,我收到了奇怪的错误消息.

失败的例子

user = User.object.create_user(username, email, password)
user.first_name = u'Rytis'
user.last_name = u'Slatkevi?ius'
user.save()
>>> Incorrect string value: '\xC4\x8Dius' for column 'last_name' at row 104

user.first_name = u'???????'
user.last_name = u'????????'
user.save()
>>> Incorrect string value: '\xD0\x92\xD0\xB0\xD0\xBB...' for column 'first_name' at row 104

user.first_name = u'Krzysztof'
user.last_name = u'Szukie?oj?'
user.save()
>>> Incorrect string value: '\xC5\x82oj\xC4\x87' for column 'last_name' at row 104
Run Code Online (Sandbox Code Playgroud)

成功的例子

user.first_name = u'Marcin'
user.last_name = u'Król'
user.save()
>>> SUCCEED
Run Code Online (Sandbox Code Playgroud)

MySQL设置

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name …
Run Code Online (Sandbox Code Playgroud)

python mysql django unicode utf-8

150
推荐指数
6
解决办法
11万
查看次数

PHP字符串中的Unicode字符

这个问题看起来很简单,但我找不到答案.

什么是PHP相当于以下C#代码行?

string str = "\u1000";
Run Code Online (Sandbox Code Playgroud)

此示例创建一个带有单个Unicode字符的字符串,其"Unicode数值"为十六进制的1000(十进制为4096).

也就是说,在PHP中,如何创建一个具有单个Unicode字符的字符串,其"Unicode数值"是已知的?

php unicode

147
推荐指数
7
解决办法
18万
查看次数

完整的等宽 Unicode 字体?

我正在寻找一种好的编程字体,它可以让我在 Unicode(通常是日语和中文以及一些拉丁语和西里尔语)中添加注释和字符串文字。

到目前为止,情况似乎是“完整的,等宽的,免费的,选择 2”,而谷歌让我失望了(也许是因为没有好的?)。

我发现的最好的是 Arial Unicode 但它不是等宽字体,这对我和我使用的编辑器来说是一个很大的麻烦。更不用说我在编写 Python 代码时的 Python 缩进了。


(欢迎链接、修改)

unicode fonts text-editor

145
推荐指数
6
解决办法
4万
查看次数

为什么这个字符串的长度比它中的字符数长?

这段代码:

string a = "abc";
string b = "AC";
Console.WriteLine("Length a = {0}", a.Length);
Console.WriteLine("Length b = {0}", b.Length);
Run Code Online (Sandbox Code Playgroud)

输出:

Length a = 3
Length b = 4
Run Code Online (Sandbox Code Playgroud)

为什么?我唯一能想到的是中文字符长度为2个字节,并且该.Length方法返回字节数.

.net c# string unicode unicode-string

145
推荐指数
8
解决办法
2万
查看次数

143
推荐指数
3
解决办法
7万
查看次数

(unicode错误)'unicodeescape'编解码器无法解码2-3位的字节:截断\ UXXXXXXXX转义

我正在尝试将.csv文件读入Python(Spyder)但我一直收到错误.我的代码:

import csv

data = open("C:\Users\miche\Documents\school\jaar2\MIK\2.6\vektis_agb_zorgverlener")
data = csv.reader(data)  
print(data)
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

SyntaxError :( unicode错误)'unicodeescape'编解码器无法解码2-3位的字节:截断\ UXXXXXXXX转义

我试图用\替换\或用/和我试图在"C ..之前放一个r ..但所有这些东西都不起作用.

python csv unicode syntax-error

141
推荐指数
8
解决办法
42万
查看次数

什么是Java中的"代理对"?

我正在阅读文档StringBuffer,特别是reverse()方法.该文件提到了代理人对的一些内容.在这种情况下,什么是代理对?什么是代理人?

java unicode utf-16 surrogate-pairs

139
推荐指数
7
解决办法
5万
查看次数

为什么Python在默认编码为ASCII时会打印unicode字符?

从Python 2.6 shell:

>>> import sys
>>> print sys.getdefaultencoding()
ascii
>>> print u'\xe9'
é
>>> 
Run Code Online (Sandbox Code Playgroud)

我希望在print语句之后有一些乱码或错误,因为"é"字符不是ASCII的一部分,我没有指定编码.我想我不明白ASCII是默认编码的意思.

编辑

我将编辑移动到了答案部分并按照建议接受了它.

python unicode encoding ascii python-2.x

137
推荐指数
3
解决办法
8万
查看次数