标签: unicode-string

UTF-8 char * 到 CString 的转换

如何将 UTF-8 char* 格式的字符串转换为 CString？

c++ utf-8 char cstring unicode-string

Gre*_*orn

2011 04-15

4
推荐指数

1
解决办法

2万
查看次数

最少使用的 unicode 分隔符

我正在尝试在特定位置使用分隔符标记我的文本，稍后将使用该分隔符进行解析。我想使用最不常用的分隔符。我当前正在查看“\2”或 U+0002 字符。使用起来足够安全吗？还有什么其他建议？文本为 unicode，同时包含英语和非英语字符。

A想要使用仍然可以被PHP“exploded()”的字符。

编辑：

另外，我希望能够在屏幕上（浏览器）显示这段文本，并且分隔符对用户来说是“不可见的”。我绝对可以使用 str_replace() 来摆脱可见分隔符，但如果有好的不可见分隔符，则不需要这样的处理。

php unicode parsing nlp unicode-string

sam*_*xli

2011 06-27

4
推荐指数

1
解决办法

2882
查看次数

Javascript Unicode 转义反斜杠

可能的重复：
如何使用转义的 unicode 解码字符串？

我有一个 javascript 变量，我在其中存储了一个 unicode 字符。

var value = "\\u53d3\\u5f13\\";

Run Code Online (Sandbox Code Playgroud)

由于没有显示额外的反斜杠 (\\u) 正确的 unicode 值，我正在将上述值动态添加到 div 中。但是，如果我将其更改为单反斜杠，即 \u 而不是 \\u 。unicode 符号正确显示。

在我的环境中，我无法使用单反斜杠存储该值。由于响应来自服务器端..

无论如何用单反斜杠替换双反斜杠以显示正确的unicode？

提前致谢

javascript regex unicode jsp unicode-string

vjy*_*vjy

2017 05-23

4
推荐指数

1
解决办法

3476
查看次数

wget unicode 文件名错误

我在 Windows 7 计算机上使用 wget（静态构建）来下载带有 unicode 文件名（法语）的视频文件。

\n\n

wget http://someserver.com/Th%C3%A8me.mov\n

Run Code Online (Sandbox Code Playgroud)\n\n

文件下载后，我可以在文件夹中以Th\xce\x93\xc2\xa8me.mov. 然而该文件的真正正确名称是Th\xc3\xa8me.mov. 我尝试过restrictfilenames = nocontrol在 wget.ini 中进行设置，但没有任何区别。我应该如何“修复它”？

\n\n

提前致谢。

windows unicode filenames wget unicode-string

kst*_*tis

2014 02-25

4
推荐指数

1
解决办法

3827
查看次数

从文本中删除所有表情符号

这个问题在这里被问到Python : How to remove all emojis without a solution，我已经朝着解决方案迈出了一步。但需要帮助完成它。

我从表情符号网站上获取了所有表情符号十六进制代码点：https : //www.unicode.org/emoji/charts/emoji-ordering.txt

然后我像这样读入文件：

file = open('emoji-ordering.txt')
temp = file.readline()

final_list = []

while temp != '':
    #print(temp)
    if not temp[0] == '#' :
            utf_8_values = ((temp.split(';')[0]).rstrip()).split(' ')
            values = ["u\\"+(word[0]+((8 - len(word[2:]))*'0' + word[2:]).rstrip()) for word in utf_8_values]
            #print(values[0])
            final_list = final_list + values
    temp = file.readline()

print(final_list)

Run Code Online (Sandbox Code Playgroud)

我希望这会给我 unicode 文字。不是，我的目标是获得 unicode 文字，这样我就可以使用上一个问题的部分解决方案，并能够排除所有表情符号。任何想法我们需要什么才能获得解决方案？

python unicode-string python-3.x emoji python-unicode

FeF*_*Fum

2018 07-07

4
推荐指数

2
解决办法

9352
查看次数

如何使固定长度的Delphi字符串使用宽字符？

在Delphi 2010下(也可能在D2009下),默认字符串类型是UnicodeString.

但是,如果我们宣布......

const
 s  :string = 'Test';
 ss :string[4] = 'Test';

Run Code Online (Sandbox Code Playgroud)

...然后第一个字符串s如果声明为UnicodeString,但第二个ss声明为AnsiString!

我们可以检查一下:SizeOf(s[1]);将返回大小2和SizeOf(ss[1]); 将返回大小1.

如果我宣布......

var
  s  :string;
  ss :string[4];

Run Code Online (Sandbox Code Playgroud)

...比我想要的ss也是UnicodeString类型.

我怎样才能告诉Delphi 2010这两个字符串应该是UnicodeString类型？
我怎么能宣布ss拥有四个WideChars？编译器不接受类型声明WideString[4]或UnicodeString[4].
两个不同的编译器声明对于相同类型名称的目的是什么:string？

delphi unicode-string widestring delphi-2010

GJ.*_*GJ.

2011 01-25

3
推荐指数

1
解决办法

3265
查看次数

什么是确定字符是否在Unicode范围内的最简单方法,在Rust中？

我正在寻找最简单的方法来确定Rust中的字符是否在两个Unicode值之间.

例如,我想知道字符s是否在[#x1-#x8]或之间[#x10FFFE-#x10FFFF].有没有这样做的功能？

unicode-string rust

Dan*_*ath

2017 05-13

3
推荐指数

2
解决办法

1338
查看次数

我有一个SSIS包，它从SQL Server导入数据并将其放入Excel目标文件中。当进入ADO Source组件的高级编辑器时，我有一个字段Description，其外部数据类型为Unicode String，长度为4000，输出数据类型为Unicode Text Stream（这是为了确保String可以将长度> 255的值导入Excel）。现在，当我进入Excel Destination组件的“高级编辑器”时，“数据类型”将停留为Unicode String，长度为4000。它允许我进行更改，但单击“保存”后会立即还原。运行中的故障，因为我已经在数据包的结果Description字段长度> 255找遍了关于这个问题无数线程如本但尚未解决。任何帮助将不胜感激。

sql-server unicode excel ssis unicode-string

Slo*_*ong

2017 05-23

3
推荐指数

1
解决办法

7444
查看次数

XE6如何检查UnicodeString是否为空？

我正在使用C++ Builder XE6.我得到一个UnicodeString参数,我想检查字符串是否设置为NULL,而不是一个空字符串.

我试图做一些简单的比较,看看param是否为null,但似乎失败了.我正在使用==似乎没有工作的运算符,这让我觉得它超载了.

我试过了:

if (searchString == NULL)

Run Code Online (Sandbox Code Playgroud)

在调试器视图中,它显示{ NULL }局部变量的值.如果我将变量添加到监视列表,则表明它具有"数据"属性NULL.

在此输入图像描述

关于如何正确进行比较的任何想法？

c++builder unicode-string c++builder-xe6

Jam*_*vec

lucky-day

3
推荐指数

1
解决办法

1651
查看次数

将数据帧的unicode数据转换为字符串

我从读取xls文件获得的数据帧遇到一些麻烦。这样的数据帧上的每个数据都具有“ unicode”类型，对此我无能为力。我想将其更改为str值。另外，如果可能的话，我想知道这个事实的原因。我听到了一些有关“外部数据”的信息，并且我知道列和索引在它们的名称之前也都显示了unicode的“ u”。我对编码几乎一无所知，如果有人另外解释一下，我将不胜感激。

我正在使用Python 2，并尝试使用功能如下逐列解决它

.astype(str) 
.astype(basestring)
.apply(str)

Run Code Online (Sandbox Code Playgroud)

和

.str.decode('iso-8859-1').str.encode('utf-8')

Run Code Online (Sandbox Code Playgroud)

（我在这里读到了最后一个，我只是在我的代码中编写了它以尝试另一件事）。我也试过

unicodedata.normalize('NFKD', df_bolsa[l]).encode('ascii','ignore')

Run Code Online (Sandbox Code Playgroud)

但是最后一个不能用于系列。我希望有人能够帮助我澄清这个问题。提前非常感谢您！！

python unicode-string python-2.7 pandas python-unicode

emi*_*ina

2017 02-24

3
推荐指数

1
解决办法

3962
查看次数

标签统计

unicode-string ×10

unicode ×4

python ×2

python-unicode ×2

c++ ×1

c++builder ×1

c++builder-xe6 ×1

char ×1

cstring ×1

delphi ×1

delphi-2010 ×1

emoji ×1

excel ×1

filenames ×1

javascript ×1

jsp ×1

nlp ×1

pandas ×1

parsing ×1

php ×1

python-2.7 ×1

python-3.x ×1

regex ×1

rust ×1

sql-server ×1

ssis ×1

utf-8 ×1

wget ×1

widestring ×1

windows ×1

标签 统计

标签统计