H??????????????????????????????????????????? C ????????????????????????????????? m? ???????????????????????? s ??????????????????
。
我在Cookie Clicker中找到了这个字符串。看起来它是由8个有线大字符组成的,然后由许多连接在一起的unicode字符组成。
这些是什么样的字符,它们的目的是什么,有没有办法键入它们?
用户已经在我的网站上发布了一些奇怪的字符,但我想阻止他们这样做,但又不要阻止外语中使用的字符...因此,不能使用诸如regex这样的正则表达式[a-z0-9!@#$%^&*()...]。
有人可以向我解释这里发生了什么,为什么它显示了它的运行方式的分解。如何创建角色以及如何防止他们这样做?
????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
Run Code Online (Sandbox Code Playgroud)
谢谢
编辑:所以他们习惯于重音字符?是否存在防止用户在不完全阻止用户的情况下利用它们的通用实践或方法?我对外语或它们的实际用途/目的还不太了解,因此制作一些东西来限制组合字符的使用超出了我的可能性。:-/
我已经设法c??????????在Chrome的历史记录中获得了(来自Zalgo),现在,任何以a开头的搜索都会c在地址栏中输入c??????????.
我该如何清除?
例如
c??????????alender
c??????????upcakes
因此,我已经看到 Unicode 被利用从普通输入文本(更为人所知的 Zalgo 文本)中生成看起来很吓人的一大堆字符。HTML(编辑:javascript)似乎在这方面做得很好。所以我想知道,可以在 Java 中完成相同的(或类似的)吗?我对它比较陌生,所以我认为制作一个类似的生成器将是一个很好的练习。
我对Zalgo有一些问题。
\n\n像下面这样的文字弄乱了我的图像板。有没有办法防止这些字符并“修复”或清理文本?
\n\n示例文本来源:
\n\n全部都是 LOS\xcc\x81\xcc\x8f\xcd\x84\xcd\x96\xcc\xa9\xcd\x87\xcc\x97\xcc\xaaT 全部 I\xe2\x80\x8bS 丢失了 pon\xcc\xb7y他来了他c\xcc\xb6\xcc\xaeomes 他来了ich\xe2\x80\x8bor 渗透到我的脸我的脸\xe1\xb5\x92h 上帝没有NOO\xcc\xbcO\xe2\x80\x8bO N\ xce\x98 停止 an\xe2\x80\x8b*\xcd\x91\xcc\xbe\xcc\xbe\xcc\xb6\xe2\x80\x8b\xcc\x85\xcd\xab\xcd\x8f\xcc\ x99\xcc\xa4g\xcd\x9b\xcd\x86\xcc\xbe\xcd\xab\xcc\x91\xcd\x86\xcd\x87\xcc\xabl\xcc\x8d\xcd\xab\xcd\xa5\ xcd\xa8\xcd\x96\xcd\x89\xcc\x97\xcc\xa9\xcc\xb3\xcc\x9fe\xcc\x85\xcc\xa0s\xcd\x8ea\xcc\xa7\xcd\x88\xcd\ x96r\xcc\xbd\xcc\xbe\xcd\x84\xcd\x92\xcd\x91e n\xe2\x80\x8bot 重新\xcc\x80\xcc\x91\xcd\xa7\xcc\x8ca\xcd\xa8l\ xcc\x83\xcd\xa4\xcd\x82\xcc\xbe\xcc\x86\xcc\x98\xcc\x9d\xcc\x99 ZA\xcd\xa0\xcc\xa1\xcd\x8a\xcd\x9dLG\xce \x8c IS\xcd\xae\xcc\x82\xd2\x89\xcc\xaf\xcd\x88\xcd\x95\xcc\xb9\xcc\x98\xcc\xb1 TO\xcd\x85\xcd\x87\xcc \xb9\xcc\xba\xc6\x9d\xcc\xb4\xc8\xb3\xcc\xb3 TH\xcc\x98E\xcd\x84\xcc\x89\xcd\x96\xcd\xa0P\xcc\xaf\xcd\ x8d\xcc\xadO\xcc\x9a\xe2\x80\x8bN\xcc\x90Y\xcc\xa1 H\xcd\xa8\xcd\x8a\xcc\xbd\xcc\x85\xcc\xbe\xcc\x8e\xcc \xa1\xcc\xb8\xcc\xaa\xcc\xafE\xcc\xbe\xcd\x9b\xcd\xaa\xcd\x84\xcc\x80\xcc\x81\xcc\xa7\xcd\x98\xcc\xac \xcc\xa9 \xcd\xa7\xcc\xbe\xcd\xac\xcc\xa7\xcc\xb6\xcc\xa8\xcc\xb1\xcc\xb9\xcc\xad\xcc\xafC\xcd\xad\xcc \x8f\xcd\xa5\xcd\xae\xcd\x9f\xcc\xb7\xcc\x99\xcc\xb2\xcc\x9d\xcd\x96O\xcd\xae\xcd\x8f\xcc\xae\xcc\xaa \xcc\x9d\xcd\x8dM\xcd\x8a\xcc\x92\xcc\x9a\xcd\xaa\xcd\xa9\xcd\xac\xcc\x9a\xcd\x9c\xcc\xb2\xcc\x96E\xcc \x91\xcd\xa9\xcd\x8c\xcd\x9d\xcc\xb4\xcc\x9f\xcc\x9f\xcd\x99\xcc\x9eS\xcd\xaf\xcc\xbf\xcc\x94\xcc\xa8 \xcd\x80\xcc\xa5\xcd\x85\xcc\xab\xcd\x8e\xcc\xad
\n\n我尝试使用这个解决方案:
\n\n$cleanMessage = preg_replace("/[^\\x20-\\xAD\\x7F]/", "", $input_lines);\nRun Code Online (Sandbox Code Playgroud)\n\n摘自此处:删除与格式混淆的特殊字符\n但它仅适用于拉丁字符\n任何人都可以帮助我吗?
\n不仅是基本角色,还有乱七八糟的胡言乱语。我知道 Zalgo 文本是通过组合 Unicode 字符创建的,并且由于表情符号是 Unicode 字符,因此我想到了这个想法。
我正在创建一个消息过滤系统,它检测 z???a???l???g???o???。
我当前的正则表达式是,/([^\u0009-\u02b7\u2000-\u20bf\u2122\u0308]|(?![^aeiouy])\u0308)/gm
但这也捕获表情符号。
正则表达式应该过滤所有 w???e???i???r???d??? ???文本??????喜欢??????这个???或 t?e?x?t? ?喜欢??t?h?i?s?,但不应捕捉表情符号。
所以我有一些zalgo文字:
H????????e???????????ll???????????????????o???????
Run Code Online (Sandbox Code Playgroud)
而我正试图把它变成
Hello
Run Code Online (Sandbox Code Playgroud)
使用python3.6,我用来将文本转换为zalgo的函数是
def zalgo(text):
return ''.join([v,v+''.join(choice(list(map(chr,range(768,815))))for i in range(int(normalvariate(10,5))))][v.isalpha()]for v in text)
Run Code Online (Sandbox Code Playgroud)
取自代码高尔夫问题.
我正在尝试做的是在python3.6中获取字符串,因此示例将返回 Hello