标签: unicode-string

UTF-8 char * 到 CString 的转换

如何将 UTF-8 char* 格式的字符串转换为 CString?

c++ utf-8 char cstring unicode-string

4
推荐指数
1
解决办法
2万
查看次数

最少使用的 unicode 分隔符

我正在尝试在特定位置使用分隔符标记我的文本,稍后将使用该分隔符进行解析。我想使用最不常用的分隔符。我当前正在查看“\2”或 U+0002 字符。使用起来足够安全吗?还有什么其他建议?文本为 unicode,同时包含英语和非英语字符。

A想要使用仍然可以被PHP“exploded()”的字符。

编辑:

另外,我希望能够在屏幕上(浏览器)显示这段文本,并且分隔符对用户来说是“不可见的”。我绝对可以使用 str_replace() 来摆脱可见分隔符,但如果有好的不可见分隔符,则不需要这样的处理。

php unicode parsing nlp unicode-string

4
推荐指数
1
解决办法
2882
查看次数

Javascript Unicode 转义反斜杠

可能的重复:
如何使用转义的 unicode 解码字符串?

我有一个 javascript 变量,我在其中存储了一个 unicode 字符。

var value = "\\u53d3\\u5f13\\";
Run Code Online (Sandbox Code Playgroud)

由于没有显示额外的反斜杠 (\\u) 正确的 unicode 值,我正在将上述值动态添加到 div 中。但是,如果我将其更改为单反斜杠,即 \u 而不是 \\u 。unicode 符号正确显示。

在我的环境中,我无法使用单反斜杠存储该值。由于响应来自服务器端..

无论如何用单反斜杠替换双反斜杠以显示正确的unicode?

提前致谢

javascript regex unicode jsp unicode-string

4
推荐指数
1
解决办法
3476
查看次数

wget unicode 文件名错误

我在 Windows 7 计算机上使用 wget(静态构建)来下载带有 unicode 文件名(法语)的视频文件。

\n\n
wget http://someserver.com/Th%C3%A8me.mov\n
Run Code Online (Sandbox Code Playgroud)\n\n

文件下载后,我可以在文件夹中以Th\xce\x93\xc2\xa8me.mov. 然而该文件的真正正确名称是Th\xc3\xa8me.mov. 我尝试过restrictfilenames = nocontrol在 wget.ini 中进行设置,但没有任何区别。我应该如何“修复它”?

\n\n

提前致谢。

\n

windows unicode filenames wget unicode-string

4
推荐指数
1
解决办法
3827
查看次数

从文本中删除所有表情符号

这个问题在这里被问到Python : How to remove all emojis without a solution,我已经朝着解决方案迈出了一步。但需要帮助完成它。

我从表情符号网站上获取了所有表情符号十六进制代码点:https : //www.unicode.org/emoji/charts/emoji-ordering.txt

然后我像这样读入文件:

file = open('emoji-ordering.txt')
temp = file.readline()

final_list = []

while temp != '':
    #print(temp)
    if not temp[0] == '#' :
            utf_8_values = ((temp.split(';')[0]).rstrip()).split(' ')
            values = ["u\\"+(word[0]+((8 - len(word[2:]))*'0' + word[2:]).rstrip()) for word in utf_8_values]
            #print(values[0])
            final_list = final_list + values
    temp = file.readline()

print(final_list)
Run Code Online (Sandbox Code Playgroud)

我希望这会给我 unicode 文字。不是,我的目标是获得 unicode 文字,这样我就可以使用上一个问题的部分解决方案,并能够排除所有表情符号。任何想法我们需要什么才能获得解决方案?

python unicode-string python-3.x emoji python-unicode

4
推荐指数
2
解决办法
9352
查看次数

如何使固定长度的Delphi字符串使用宽字符?

在Delphi 2010下(也可能在D2009下),默认字符串类型是UnicodeString.

但是,如果我们宣布......

const
 s  :string = 'Test';
 ss :string[4] = 'Test';
Run Code Online (Sandbox Code Playgroud)

...然后第一个字符串s如果声明为UnicodeString,但第二个ss声明为AnsiString!

我们可以检查一下:SizeOf(s[1]);将返回大小2和SizeOf(ss[1]); 将返回大小1.

如果我宣布......

var
  s  :string;
  ss :string[4];
Run Code Online (Sandbox Code Playgroud)

...比我想要的ss也是UnicodeString类型.

  1. 我怎样才能告诉Delphi 2010这两个字符串应该是UnicodeString类型?
  2. 我怎么能宣布ss拥有四个WideChars?编译器不接受类型声明WideString[4]UnicodeString[4].
  3. 两个不同的编译器声明对于相同类型名称的目的是什么:string

delphi unicode-string widestring delphi-2010

3
推荐指数
1
解决办法
3265
查看次数

什么是确定字符是否在Unicode范围内的最简单方法,在Rust中?

我正在寻找最简单的方法来确定Rust中的字符是否在两个Unicode值之间.

例如,我想知道字符s是否在[#x1-#x8]或之间[#x10FFFE-#x10FFFF].有没有这样做的功能?

unicode-string rust

3
推荐指数
2
解决办法
1338
查看次数

无法更改SSIS Excel目标列数据类型

我有一个SSIS包,它从SQL Server导入数据并将其放入Excel目标文件中。当进入ADO Source组件的高级编辑器时,我有一个字段Description,其外部数据类型为Unicode String,长度为4000,输出数据类型为Unicode Text Stream(这是为了确保String可以将长度> 255的值导入Excel)。现在,当我进入Excel Destination组件的“高级编辑器”时,“数据类型”将停留为Unicode String,长度为4000。它允许我进行更改,但单击“保存”后会立即还原。运行中的故障,因为我已经在数据包的结果Description字段长度> 255找遍了关于这个问题无数线程如但尚未解决。任何帮助将不胜感激。

sql-server unicode excel ssis unicode-string

3
推荐指数
1
解决办法
7444
查看次数

XE6如何检查UnicodeString是否为空?

我正在使用C++ Builder XE6.我得到一个UnicodeString参数,我想检查字符串是否设置为NULL,而不是一个空字符串.

我试图做一些简单的比较,看看param是否为null,但似乎失败了.我正在使用==似乎没有工作的运算符,这让我觉得它超载了.

我试过了:

if (searchString == NULL)
Run Code Online (Sandbox Code Playgroud)

在调试器视图中,它显示{ NULL }局部变量的值.如果我将变量添加到监视列表,则表明它具有"数据"属性NULL.

在此输入图像描述

关于如何正确进行比较的任何想法?

c++builder unicode-string c++builder-xe6

3
推荐指数
1
解决办法
1651
查看次数

将数据帧的unicode数据转换为字符串

我从读取xls文件获得的数据帧遇到一些麻烦。这样的数据帧上的每个数据都具有“ unicode”类型,对此我无能为力。我想将其更改为str值。另外,如果可能的话,我想知道这个事实的原因。我听到了一些有关“外部数据”的信息,并且我知道列和索引在它们的名称之前也都显示了unicode的“ u”。我对编码几乎一无所知,如果有人另外解释一下,我将不胜感激。

我正在使用Python 2,并尝试使用功能如下逐列解决它

.astype(str) 
.astype(basestring)
.apply(str) 
Run Code Online (Sandbox Code Playgroud)

.str.decode('iso-8859-1').str.encode('utf-8') 
Run Code Online (Sandbox Code Playgroud)

(我在这里读到了最后一个,我只是在我的代码中编写了它以尝试另一件事)。我也试过

unicodedata.normalize('NFKD', df_bolsa[l]).encode('ascii','ignore')
Run Code Online (Sandbox Code Playgroud)

但是最后一个不能用于系列。我希望有人能够帮助我澄清这个问题。提前非常感谢您!!

python unicode-string python-2.7 pandas python-unicode

3
推荐指数
1
解决办法
3962
查看次数