标签: unicode

"u"和"r"字符串标志究竟做了什么,以及什么是原始字符串文字？

在问这个问题时,我意识到我对原始字符串知之甚少.对于那些自称是Django训练师的人来说,这很糟糕.

我知道编码是什么,而且我知道u''自从我得到什么是Unicode以来我们独自做了什么.

但到底r''做了什么呢？它会产生什么样的字符串？
And above all, what the heck does ur'' do?
Finally, is there any reliable way to go back from a Unicode string to a simple raw string?
Ah, and by the way, if your system and your text editor charset are set to UTF-8, does u'' actually do anything?

python unicode python-2.x rawstring

e-s*_*tis

2018 10-11

600
推荐指数

7
解决办法

41万
查看次数

Twitter图像编码挑战

如果一张图片价值1000字,你可以在140个字符中放入多少图片？

注意:那就是大家!赏金的最后期限就在这里,经过一番艰难的考虑后,我认为Boojum的进入只是勉强淘汰Sam Hocevar的.一旦我有机会写出来,我会发布更详细的笔记.当然,每个人都应该随时继续提交解决方案并改进人们投票的解决方案.感谢所有提交和参赛的人; 我很喜欢他们.这对我来说非常有趣,我希望这对参赛者和观众来说都很有趣.

我遇到了一篇关于尝试将图像压缩成Twitter评论的有趣帖子,该线程中的很多人(以及Reddit上的一个帖子)都提出了有关不同方法的建议.所以,我认为这将是一个很好的编码挑战; 让人们将钱放在嘴边,并展示他们对编码的看法如何在有限的空间中提供更多细节.

我挑战你想出一个通用系统,用于将图像编码成140个字符的Twitter消息,并将它们再次解码为图像.您可以使用Unicode字符,因此每个字符的字符数超过8位.但是,即使允许使用Unicode字符,也需要将图像压缩到非常小的空间内; 这肯定会是一种有损压缩,因此必须对每种结果的好看进行主观判断.

以下是原作者Quasimondo从他的编码中获得的结果(图片根据知识共享署名 - 非商业许可证授权): 蒙娜丽莎

你能做得更好吗？

规则

您的程序必须有两种模式:编码和解码.
当编码:
1. 您的程序必须以您选择的任何合理光栅图形格式输入图形作为输入.我们会说ImageMagick支持的任何栅格格式都算合理.
2. 您的程序必须输出一条消息,该消息可以用140个或更少的Unicode代码点表示; 在范围140个的代码点U+0000- U+10FFFF,排除非字符(U+FFFE,U+FFFF,U+ÑFFFE,U+ÑFFFF其中Ñ是1- 10十六进制和范围U+FDD0- U+FDEF)和替代代码点(U+D800- U+DFFF).它可以以您选择的任何合理编码输出; GNUiconv支持的任何编码都被认为是合理的,您的平台本机编码或区域编码可能是一个不错的选择.有关详细信息,请参阅下面的Unicode注释
当解码: …

compression unicode twitter

Bri*_*ell

2017 07-17

597
推荐指数

14
解决办法

9万
查看次数

为什么现代Perl默认会避免使用UTF-8？

我想知道为什么使用Perl构建的大多数现代解决方案默认情况下不启用UTF-8.

我知道核心Perl脚本存在许多遗留问题,可能会破坏它们.但是,从我的角度来看,在21 ^日的世纪,新的大项目(或具有大的方面讲项目)应该从头开始他们的软件UTF-8的证明.我仍然没有看到它发生.例如,Moose启用严格和警告,但不启用Unicode.Modern :: Perl也减少了样板,但没有UTF-8处理.

为什么？是否有一些理由在2011年的现代Perl项目中避免使用UTF-8？

评论@tchrist太长了,所以我在这里添加它.

似乎我没有说清楚.让我尝试添加一些东西.

tchrist和我看到情况非常相似,但我们的结论完全是相反的.我同意,Unicode的情况很复杂,但这就是为什么我们(Perl用户和编码人员)需要一些层(或编译指示),这使得UTF-8处理变得像现在一样容易.

tchrist指出要涵盖的许多方面,我会阅读并思考它们几天甚至几周.不过,这不是我的观点.tchrist试图证明没有一种方法"启用UTF-8".我没有太多的知识可以与之争辩.所以,我坚持住实例.

我和Rakudo一起玩,UTF-8就在我需要的地方.我没有任何问题,它只是奏效了.也许在某些地方存在一些限制,但一开始,我测试的所有工作都按照我的预期进行.

这不应该是现代Perl 5的目标吗？我更强调一点:我不是建议将UTF-8作为核心Perl的默认字符集,我建议可以为那些开发新项目的人快速触发它.

另一个例子,但更负面的语气.框架应该使开发更容易.几年前,我尝试过Web框架,但只是把它们扔掉了,因为"启用UTF-8"是如此模糊.我没有找到如何以及在何处挂钩Unicode支持.这是非常耗时的,我发现它更容易走老路.现在我看到这里有一个赏金来处理与梅森 2 相同的问题:如何让Mason2 UTF-8干净？.因此,它是一个非常新的框架,但使用UTF-8需要深入了解其内部.这就像一个大红色标志:停止,不要使用我!

我真的很喜欢Perl.但处理Unicode是痛苦的.我仍然发现自己在墙上奔跑.某种方式tchrist是正确的,并回答我的问题:新项目不吸引UTF-8,因为它在Perl 5中太复杂了.

unicode perl utf-8

w.k*_*w.k

2018 04-02

555
推荐指数

6
解决办法

10万
查看次数

为什么表情符号在Swift字符串中被如此奇怪地处理？

角色(有两个女人,一个女孩和一个男孩的家庭)编码如下:

U+1F469 WOMAN,
?U+200D ZWJ,
U+1F469 WOMAN,
U+200D ZWJ,
U+1F467 GIRL,
U+200D ZWJ,
U+1F466 BOY

所以它非常有趣地编码; 单元测试的完美目标.然而,斯威夫特似乎不知道如何对待它.这就是我的意思:

"???".contains("???") // true
"???".contains("") // false
"???".contains("\u{200D}") // false
"???".contains("") // false
"???".contains("") // true

Run Code Online (Sandbox Code Playgroud)

所以,斯威夫特说它包含自己(好)和一个男孩(好!).但它说它不包含女人,女孩或零宽度木匠.这里发生了什么事？斯威夫特为什么知道它包含一个男孩而不是女人或女孩？我能理解它是否将它视为一个单一的角色并且只识别它包含它自己,但事实上它有一个子组件,没有其他人困惑我.

如果我使用类似的东西,这不会改变"".characters.first!.

更令人困惑的是:

let manual = "\u{1F469}\u{200D}\u{1F469}\u{200D}\u{1F467}\u{200D}\u{1F466}"
Array(manual.characters) // ["?", "?", "?", ""]

Run Code Online (Sandbox Code Playgroud)

即使我将ZWJ放在那里,它们也不会反映在字符数组中.接下来是一个小小的说法:

manual.contains("") // false
manual.contains("") // false
manual.contains("") // true

Run Code Online (Sandbox Code Playgroud)

所以我得到了与字符数组相同的行为...这是非常烦人的,因为我知道数组的样子.

如果我使用类似的东西,这也不会改变"".characters.first!.

string unicode emoji swift

Ben*_*ero

2017 04-29

524
推荐指数

5
解决办法

3万
查看次数

在字符集之间转换文本文件的最佳方法？

在字符集之间转换文本文件的最快,最简单的工具或方法是什么？

具体来说,我需要从UTF-8转换为ISO-8859-15,反之亦然.

一切顺利:您最喜欢的脚本语言的单行,命令行工具或OS,网站等的其他实用程序.

迄今为止的最佳解决方

在Linux/UNIX/OS X/cygwin上:

Troels Arvin建议的Gnu iconv最适合用作过滤器.它似乎普遍可用.例:
```
$ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt
```
Run Code Online (Sandbox Code Playgroud)
正如Ben所指出的,有一个使用iconv的在线转换器.
由Cheekysoft建议的Gnu 重新编码(手动)将就地转换一个或多个文件.例:
```
$ recode UTF8..ISO-8859-15 in.txt
```
Run Code Online (Sandbox Code Playgroud)
这个使用较短的别名:
```
$ recode utf8..l9 in.txt
```
Run Code Online (Sandbox Code Playgroud)
Recode还支持可用于在不同行结束类型和编码之间进行转换的曲面:

将换行符从LF(Unix)转换为CR-LF(DOS):
```
$ recode ../CR-LF in.txt
```
Run Code Online (Sandbox Code Playgroud)
Base64编码文件:
```
$ recode ../Base64 in.txt
```
Run Code Online (Sandbox Code Playgroud)
你也可以将它们结合起来.

将带有Unix行尾的Base64编码的UTF8文件转换为带有Dos行结尾的Base64编码的Latin 1文件:
```
$ recode utf8/Base64..l1/CR-LF/Base64 file.txt
```
Run Code Online (Sandbox Code Playgroud)

在带有Powershell的 Windows上(Jay Bazuzi):

PS C:\> gc -en utf8 …

unicode text utf-8 character-set

Ant*_*emi

2017 05-23

509
推荐指数

10
解决办法

47万
查看次数

在Python中将Unicode字符串转换为字符串(包含额外符号)

如何将Unicode字符串(包含££等额外字符)转换为Python字符串？

python string unicode type-conversion

wil*_*oup

2016 03-23

486
推荐指数

8
解决办法

91万
查看次数

删除Python unicode字符串中重音的最佳方法是什么？

我在Python中有一个Unicode字符串,我想删除所有的重音符号(变音符号).

我在Web上发现了一种在Java中执行此操作的优雅方法:

将Unicode字符串转换为长标准化形式(字母和变音符号使用单独的字符)
删除Unicode类型为"变音符号"的所有字符.

我是否需要安装pyICU等库？或者只使用python标准库？那python 3怎么样？

重要说明:我想避免代码使用重音字符到非重音符号的显式映射.

python unicode diacritics python-2.x python-3.x

Min*_*ark

2015 02-17

462
推荐指数

12
解决办法

23万
查看次数

UTF-8和Unicode有什么区别

根据维基百科的UTF-8页面,我听到了人们的相互矛盾的意见.

他们是一回事,不是吗？有人可以澄清吗？

unicode encoding terminology utf-8 character-encoding

sar*_*ake

2019 07-06

462
推荐指数

15
解决办法

24万
查看次数

UTF-8,UTF-16和UTF-32

UTF-8,UTF-16和UTF-32有什么区别？

我知道他们都将存储Unicode,并且每个都使用不同的字节数来表示字符.选择一个优于另一个是否有优势？

unicode utf-8 utf-16 utf utf-32

作者

2017 01-05

459
推荐指数

11
解决办法

20万
查看次数

UnicodeDecodeError:'charmap'编解码器无法解码位置Y中的字节X:字符映射到<undefined>

我正在尝试使用填充了信息的文本文件来对Python 3程序进行一些操作.但是,在尝试读取文件时,我收到以下错误:

回溯(最近一次调用最后一次):文件"SCRIPT LOCATION",第NUMBER行,在text = file.read()文件"C:\ Python31\lib\encodings\cp1252.py",第23行,在解码中返回codecs.charmap_decode (input,self.errors,decoding_table)[0] UnicodeDecodeError:'charmap'编解码器无法解码2907500位的字节0x90:字符映射到

如果有人能给我任何帮助试图解决这个问题,我将非常感激.

windows unicode file-io decode python-3.x

Ede*_*row

2019 08-19

449
推荐指数

8
解决办法

51万
查看次数