标签: non-ascii-characters

在 URL 中使用非拉丁字符

我正在开发一个网站,客户已将其翻译成克罗地亚语和斯洛文尼亚语。为了与现有的 URL 模式保持一致,我们生成了模仿应用程序布局的 URL 重写规则,这导致 URL 中出现许多非 ASCII 字符。

\n\n

示例 \xc5\xa1 \xc5\xbe \xc4\x8d

\n\n

有些链接是使用 getURL 从 Flash 触发的,有些是标准 HTML 链接。有些是编程式的 Response.Redirects,有些是通过向响应添加 301 状态代码和位置标头来实现。我正在 IE6、IE7 和 Firefox 3 中进行测试,浏览器间歇性地显示非拉丁字符 url 编码。

\n\n
\xc5\xa1 = %c5%a1\n\xc5\xbe = %c5%be\n\xc4\x8d = %c4%8d\n
Run Code Online (Sandbox Code Playgroud)\n\n

我猜这与 IIS 及其处理 Response.Redirect 和 AddHeader("Location ...

\n\n

有谁知道强制 IIS 不对这些字符进行 URL 编码的方法,或者我最好的选择是用非变音符号替换这些字符?

\n\n

谢谢

\n

asp.net iis-6 friendly-url url-rewriting non-ascii-characters

1
推荐指数
1
解决办法
3982
查看次数

从shell脚本中的变量中删除非ascii字符

我在shell脚本中输出命令的输出并将结果存储在变量中.

由于grep使用的解析逻辑,这个变量可能具有非ascii字符,这是一个非常极端的情况.

问题:如何从shell脚本中的此变量中删除这些非ascii字符,以便我可以在后续命令中使用该变量?

shell non-ascii-characters

1
推荐指数
1
解决办法
2904
查看次数

在Perl中,如何用简单的ASCII字符替换UTF8字符,例如\ x91,\ x {2018},\ x {2013},\ x {2014}?

我正在处理各种文章,我遇到的问题是各种作者使用各种字符作为标点字符.

例如,我目前使用的几个文档具有以下字符:

\x91
\x92
\x{2018}
\x{2019}
Run Code Online (Sandbox Code Playgroud)

所有这些字符代表一个简单的引用'.

我想要做的是简化文章,使它们都具有相同的格式样式.

有没有人知道将这些字符和类似字符(如双引号,破折号等)转换为简单ASCII字符的模块或方法?

我目前正在做的事情如下:

sub fix_chars_in_document {
    my $document = shift;
    $document =~ s/\xa0/ /g;
    $document =~ s/\x91/'/g;
    $document =~ s/\x92/'/g;
    $document =~ s/\x93/"/g;
    $document =~ s/\x94/"/g;
    $document =~ s/\x97/-/g;
    $document =~ s/\xab/"/g;
    $document =~ s/\xa9//g;
    $document =~ s/\xae//g;
    $document =~ s/\x{2018}/'/g;
    $document =~ s/\x{2019}/'/g;
    $document =~ s/\x{201C}/"/g;
    $document =~ s/\x{201D}/"/g;
    $document =~ s/\x{2022}//g;
    $document =~ s/\x{2013}/-/g;
    $document =~ s/\x{2014}/-/g;
    $document =~ s/\x{2122}//g; 
    return $document ;
}
Run Code Online (Sandbox Code Playgroud)

但这很难,因为我要手动找到字符并替换它们.

perl encoding ascii character-encoding non-ascii-characters

1
推荐指数
1
解决办法
7273
查看次数

在C中将char数组转换为字符串(包括不可打印的字符)?

说我有以下内容:

static const unsigned char key[] = {
    0x00, 0x11, 0x22, 0x33, 0x44, 0x55, 0x66, 0x77,
    0x88, 0x99, 0xaa, 0xbb, 0xcc, 0xdd, 0xee, 0xff
};
Run Code Online (Sandbox Code Playgroud)

如何在C中将其转换为字符串(包括不可打印的字符)?

我搜索了谷歌和SO ...但只能设法找到如果转换,如果字符是人类 - ASCII 0-9 AZ.

c non-ascii-characters

1
推荐指数
1
解决办法
531
查看次数

Solr重音删除

我已阅读有关如何在索引/查询时删除重音的各种线程.我提出的当前字段类型如下所示:

<fieldType name="text_general" class="solr.TextField">     
    <analyzer>
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.ASCIIFoldingFilterFactory"/>
            <filter class="solr.LowerCaseFilterFactory" />
    </analyzer>     
</fieldType>
Run Code Online (Sandbox Code Playgroud)

在向索引添加了几个测试信息之后,我已经检查过了 http://localhost:8080/solr/test_core/admin/luke?fl=title

生成了哪种令牌.例如,像"拜仁慕尼黑"这样的标题被标记为:

<int name="bayern">1</int>
<int name="m">1</int>
<int name="nchen">1</int>
Run Code Online (Sandbox Code Playgroud)

因此,它不是用ascii pendant替换字符,而是被解释为分隔符?!有这样的指数导致我既不能搜索"münchen"也不能搜索m?nchen.

知道怎么解决?提前致谢.

search solr non-ascii-characters

1
推荐指数
1
解决办法
5912
查看次数

Objective-C NSURL具有非字母字符

我正在尝试使用特殊字符创建一个NSURL,如"","|"," - ",":"等.如果我的字符串中有任何这些字符,则NSURL不会初始化.如何使用这些字符创建NSURL?以下不起作用:

NSURL *url = [[NSURL alloc] initWithString:@"http://google.com?id=|test|"]; //if i remove the | it works. 
Run Code Online (Sandbox Code Playgroud)

xcode objective-c nsurl non-ascii-characters ios

1
推荐指数
1
解决办法
1265
查看次数

语法错误:flask 中的非 ASCII 字符

我有一个带有选择字段的简单表单。问题是该值使用西里尔字母。像下面这样:

class Add_menu_form(Form):
    title = TextField('Title', [validators.Length(min=1, max=250), validators.Required()])
    menu_type = SelectField('Menu type', 
                choices=[('simple', '???????'),
                        ('blog', '????'),
                        ('products', '?????????')])
Run Code Online (Sandbox Code Playgroud)

当我运行应用程序时,它给了我一个错误:

SyntaxError: Non-ASCII character '\xd0' in file /home/app/admin/forms.py 
on line 26, but no encoding declared; 
see http://www.python.org/peps/pep-0263.html for details
Run Code Online (Sandbox Code Playgroud)

你能告诉我克服它的最简单方法吗?谢谢

forms non-ascii-characters flask

1
推荐指数
1
解决办法
2303
查看次数

Python unicode在写入文件时转换为ASCII

我正在编写一个脚本来浏览音乐库并打印一个带有专辑名称日期的.txt文件......然后编号轨道.它完美地工作,直到导入的标签(作为unicode)到达( - ).然后我得到一个:

  File "C:/Users/Brian/Python files/CDinfoRF2.py", line 51, in music_album_info
    mfile.write(header)
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 18: ordinal not in range(128).
Run Code Online (Sandbox Code Playgroud)

代码:

#!usr/bin/env python
__author__ = 'Brian Kane'

"""This scripts takes a path argument to the root directory of the music files (mp3 here) and
   writes various information about the disc to a text file which is named by the artist"""

import io
import os
from os.path import *
import string
from mutagen.mp3 import MP3
from …
Run Code Online (Sandbox Code Playgroud)

python unicode converter non-ascii-characters

1
推荐指数
1
解决办法
284
查看次数

SQL Server 中未插入口音

我正在尝试将此名称 -> Num?Twó 与重音一起添加到 MS sql server 中的表中。但它只是被插入为 -> NumaTwó(没有?)。我尝试了很多编码,但似乎不起作用。我已经给出了下表的 DDL。请帮忙

CREATE TABLE [dbo].[test](
    [testname] [nvarchar](40) COLLATE SQL_Latin1_General_CP1253_CI_AI NULL
 ) ON [PRIMARY]

----------- Insert-----------
insert into test values ('Num?Twó');
Run Code Online (Sandbox Code Playgroud)

sql sql-server nvarchar character-encoding non-ascii-characters

1
推荐指数
1
解决办法
926
查看次数

双正斜杠符号 // 的 HTML 代码是什么?

我正在寻找一个看起来像连续两个正斜杠的符号。当然,我可以像这样输入两个斜线: // 但我更喜欢这些斜线非常靠近的单个符号。我试图谷歌它,无济于事。

html symbols non-ascii-characters

1
推荐指数
1
解决办法
1348
查看次数