标签: unicode

(grep)正则表达式匹配非ASCII字符？

在Linux上,我有一个包含大量文件的目录.其中一些具有非ASCII字符,但它们都是有效的UTF-8.一个程序有一个错误,阻止它使用非ASCII文件名,我必须找出有多少受影响.我打算这样做find,然后做一个grep打印非ASCII字符,然后做一个wc -l找到数字.它不一定是grep; 我可以使用任何标准的Unix 正则表达式,如Perl,sed,AWK等.

但是,是否存在"任何不是ASCII字符的字符"的正则表达式？

regex unicode grep ascii

Ror*_*ory

2014 01-11

157
推荐指数

3
解决办法

13万
查看次数

Python:在Unicode转义字符串上使用.format()

我使用的是Python 2.6.5.我的代码需要使用"超过或等于"的符号.在这里:

>>> s = u'\u2265'
>>> print s
>>> ?
>>> print "{0}".format(s)
Traceback (most recent call last):
     File "<input>", line 1, in <module> 
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2265'
  in position 0: ordinal not in range(128)`

Run Code Online (Sandbox Code Playgroud)

为什么我会收到此错误？有没有正确的方法来做到这一点？我需要使用该.format()功能.

python string unicode python-2.x

Kit*_*Kit

2017 01-09

154
推荐指数

3
解决办法

8万
查看次数

在Django中保存unicode字符串时,MySQL"错误的字符串值"错误

尝试将first_name,last_name保存到Django的auth_user模型时,我收到了奇怪的错误消息.

失败的例子

user = User.object.create_user(username, email, password)
user.first_name = u'Rytis'
user.last_name = u'Slatkevi?ius'
user.save()
>>> Incorrect string value: '\xC4\x8Dius' for column 'last_name' at row 104

user.first_name = u'???????'
user.last_name = u'????????'
user.save()
>>> Incorrect string value: '\xD0\x92\xD0\xB0\xD0\xBB...' for column 'first_name' at row 104

user.first_name = u'Krzysztof'
user.last_name = u'Szukie?oj?'
user.save()
>>> Incorrect string value: '\xC5\x82oj\xC4\x87' for column 'last_name' at row 104

Run Code Online (Sandbox Code Playgroud)

成功的例子

user.first_name = u'Marcin'
user.last_name = u'Król'
user.save()
>>> SUCCEED

Run Code Online (Sandbox Code Playgroud)

MySQL设置

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name …

Run Code Online (Sandbox Code Playgroud)

python mysql django unicode utf-8

jac*_*ack

2010 01-26

150
推荐指数

6
解决办法

11万
查看次数

PHP字符串中的Unicode字符

这个问题看起来很简单,但我找不到答案.

什么是PHP相当于以下C#代码行？

string str = "\u1000";

Run Code Online (Sandbox Code Playgroud)

此示例创建一个带有单个Unicode字符的字符串,其"Unicode数值"为十六进制的1000(十进制为4096).

也就是说,在PHP中,如何创建一个具有单个Unicode字符的字符串,其"Unicode数值"是已知的？

php unicode

Tel*_*avo

2015 12-22

147
推荐指数

7
解决办法

18万
查看次数

完整的等宽 Unicode 字体？

我正在寻找一种好的编程字体，它可以让我在 Unicode（通常是日语和中文以及一些拉丁语和西里尔语）中添加注释和字符串文字。

到目前为止，情况似乎是“完整的，等宽的，免费的，选择 2”，而谷歌让我失望了（也许是因为没有好的？）。

我发现的最好的是 Arial Unicode 但它不是等宽字体，这对我和我使用的编辑器来说是一个很大的麻烦。更不用说我在编写 Python 代码时的 Python 缩进了。

（欢迎链接、修改）

unicode fonts text-editor

nac*_*hik

lucky-day

145
推荐指数

6
解决办法

4万
查看次数

为什么这个字符串的长度比它中的字符数长？

这段代码:

string a = "abc";
string b = "AC";
Console.WriteLine("Length a = {0}", a.Length);
Console.WriteLine("Length b = {0}", b.Length);

Run Code Online (Sandbox Code Playgroud)

输出:

Length a = 3
Length b = 4

Run Code Online (Sandbox Code Playgroud)

为什么？我唯一能想到的是中文字符长度为2个字节,并且该.Length方法返回字节数.

.net c# string unicode unicode-string

wei*_*i37

2015 02-04

145
推荐指数

8
解决办法

2万
查看次数

C#中Char.IsDigit()和Char.IsNumber()之间的区别

C#Char.IsDigit()和Char.IsNumber()C#有什么区别？

.net c# unicode

Guy*_*Guy

2013 02-26

143
推荐指数

3
解决办法

7万
查看次数

(unicode错误)'unicodeescape'编解码器无法解码2-3位的字节:截断\ UXXXXXXXX转义

我正在尝试将.csv文件读入Python(Spyder)但我一直收到错误.我的代码:

import csv

data = open("C:\Users\miche\Documents\school\jaar2\MIK\2.6\vektis_agb_zorgverlener")
data = csv.reader(data)  
print(data)

Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

SyntaxError :( unicode错误)'unicodeescape'编解码器无法解码2-3位的字节:截断\ UXXXXXXXX转义

我试图用\替换\或用/和我试图在"C ..之前放一个r ..但所有这些东西都不起作用.

python csv unicode syntax-error

Mie*_*sje

2019 02-07

141
推荐指数

8
解决办法

42万
查看次数

什么是Java中的"代理对"？

我正在阅读文档StringBuffer,特别是reverse()方法.该文件提到了代理人对的一些内容.在这种情况下,什么是代理对？什么是低和高代理人？

java unicode utf-16 surrogate-pairs

Ray*_*ond

2015 04-27

139
推荐指数

7
解决办法

5万
查看次数

为什么Python在默认编码为ASCII时会打印unicode字符？

从Python 2.6 shell:

>>> import sys
>>> print sys.getdefaultencoding()
ascii
>>> print u'\xe9'
é
>>>

Run Code Online (Sandbox Code Playgroud)

我希望在print语句之后有一些乱码或错误,因为"é"字符不是ASCII的一部分,我没有指定编码.我想我不明白ASCII是默认编码的意思.

编辑

我将编辑移动到了答案部分并按照建议接受了它.

python unicode encoding ascii python-2.x

Mic*_*oka

2018 08-03

137
推荐指数

3
解决办法

8万
查看次数

标签统计

unicode ×10

python ×4

.net ×2

ascii ×2

c# ×2

python-2.x ×2

string ×2

csv ×1

django ×1

encoding ×1

fonts ×1

grep ×1

java ×1

mysql ×1

php ×1

regex ×1

surrogate-pairs ×1

syntax-error ×1

text-editor ×1

unicode-string ×1

utf-16 ×1

utf-8 ×1

标签 统计

标签统计