标签: utf-16

在node.js应用程序中读取文件时出现奇怪的unicode字符

我正在尝试编写一个节点应用程序,该应用程序读入一组文件,将它们分成行,然后将这些行放入一个数组中.很简单.除了我正在使用的一些SQL文件之外,它适用于很多文件.出于某种原因,当我将线分开时,我似乎正在获得某种unicode输出.该应用程序看起来像这样:

fs = require("fs");
var data = fs.readFileSync("test.sql", "utf8");
console.log(data);
lines = data.split("\n");
console.log(lines);
Run Code Online (Sandbox Code Playgroud)

输入文件如下所示:

use whatever
go
Run Code Online (Sandbox Code Playgroud)

输出如下所示:

??use whatever
go

[ '??u\u0000s\u0000e\u0000 \u0000w\u0000h\u0000a\u0000t\u0000e\u0000v\u0000e\u0000r\u0000',
  '\u0000g\u0000o\u0000',
  '\u0000' ]
Run Code Online (Sandbox Code Playgroud)

正如您所看到的,文件开头有一些无法识别的字符.在读取数据并直接输出后,除了这个字符外,它看起来还可以.但是,如果我然后尝试将其拆分成行,我会得到所有这些类似unicode的字符.基本上它是每个开头的所有实际字符"\ u0000".

我不知道这里发生了什么,但它似乎与文件本身的字符有关.如果我将文件的文本复制并粘贴到另一个新文件并在新文件上运行应用程序,它可以正常工作.我认为在复制和粘贴过程中,任何导致此问题的因素都会被删除.

javascript unicode utf-16 utf node.js

7
推荐指数
1
解决办法
2万
查看次数

将短数组转换为字符串C#

是否可以将short数组转换为string,然后显示文本?

short[] a = new short[] {0x33, 0x65, 0x66, 0xE62, 0xE63};
Run Code Online (Sandbox Code Playgroud)

utf16(泰语字符)包含在数组中.它如何输出并显示泰语和英语单词?

谢谢.

c# utf-16

7
推荐指数
3
解决办法
4181
查看次数

检测UTF-16文件内容

是否可以知道文件是否具有Unicode(每个字符16个字节)或8位ASCII内容?

encoding file utf-8 utf-16

6
推荐指数
3
解决办法
8732
查看次数

在韩语的Grapheme Cluster中搜索或比较

在我目前的执行情况UISearchBarController,我用[NSString compare:]里面filterContentForSearchText:scope:的委托方法返回基于他们的name属性的结果有关的对象UITableView,当你开始打字.

到目前为止,这在英语和韩语中都很好用,但我希望能够做的是在NSString定义的字符簇中搜索.这仅适用于少数几种语言,其中韩语是一种语言.

在英语中,compare:在输入的每个字母后返回新结果,但在韩语中,一旦完成识别的字形集群,就会生成结果.我希望能够通过构成音节的各个元素搜索我的韩语对象名称属性.

任何人都可以阐明如何处理这个问题吗?我确信它与手动搜索UTF16字符或使用较低级别的类有关.

干杯!

这是一个不起作用的具体示例:

`NSString *string1 = @"?"; 
`NSString *string2 = @"?";
NSRange resultRange = [[string1 decomposedStringWithCanonicalMapping] rangeOfString:    [string2 decomposedStringWithCanonicalMapping] options:(NSLiteralSearch)];
Run Code Online (Sandbox Code Playgroud)

结果总是NSNotFound,有或没有decomposedStringWithCanonicalMapping.

有任何想法吗?

iphone objective-c utf-8 utf-16 nsstring

6
推荐指数
1
解决办法
554
查看次数

std :: wstring长度

std :: wstring.length()函数的结果是什么,wchar_t(s)的长度或符号的长度是多少?为什么?

TCHAR r2[3];
r2[0] = 0xD834;  // D834, DD1E - musical G clef
r2[1] = 0xDD1E;  //
r2[2] = 0x0000;  // '/0'

std::wstring r = r2;

std::cout << "capacity: " << r.capacity() << std::endl;
std::cout << "length: "   << r.length()   << std::endl;
std::cout << "size: "     << r.size()     << std::endl;
std::cout << "max_size: " << r.max_size() << std::endl;

Output>

capacity: 351
length: 2
size: 2
max_size: 2147483646
Run Code Online (Sandbox Code Playgroud)

c++ string encoding std utf-16

6
推荐指数
1
解决办法
2万
查看次数

我应该知道如何让我的I18N应用程序使用日语?

我正在制作一个I18N应用程序,它将使用日语,我不懂日语,我首先想知道utf8是否足以支持该语言.

通常,对于欧洲语言,utf8就足够了,我要设置我的数据库charset/collat​​ion以使用utf8_general_ci(在MySQL中)和我在utf8中的html视图,这就足够了.

但是日本人呢,还有别的事可做吗?

顺便说一句,我的应用程序将能够处理英语,法语,日语,但稍后,可能需要添加一些语言,比方说,俄语.

如何设置我的I18N应用程序以便在不必更改部署配置的情况下广泛使用?

有没有最好的做法?

顺便说一下,我打算使用gettext,我很确定它支持这些语言没有任何问题,因为它几乎是所有GNU软件的事实上的标准,但任何反馈?

php utf-8 utf-16 gettext internationalization

6
推荐指数
1
解决办法
533
查看次数

std::wstring 在 Windows 上支持 UTF-16 和 UTF-32 吗?

我正在学习 Unicode,并有几个问题希望得到解答。

1)我读到,在 Linux 上,std::wstring是 4 字节,而在 Windows 上,它是 2 字节。这是否意味着 Linux 内部支持UTF-32而 Windows 内部支持UTF-16

2) std::wstring 的使用与 std::string 接口非常相似吗?

3) VC++ 是否支持使用 4 字节 std::wstring?

4)如果使用std::wstring,是否必须更改编译器选项?

作为旁注,我遇到了一个用于处理 UTF-8 的字符串库,它具有与 std::string 非常相似的接口,它提供了熟悉的功能,例如长度、substr、查找、大小写转换等。该库是Glib ::ustring

请随时添加任何评论或其他建议,因为我真的需要它。

谢谢你!

c++ unicode utf-8 utf-16 utf-32

6
推荐指数
2
解决办法
6746
查看次数

如何在 utf-16 中编码 JavaScript 字符串?

在 Python 3 中,我可以这样做:

>>> "€13,56".encode('utf-16')
b'\xff\xfe\xac 1\x003\x00,\x005\x006\x00'
Run Code Online (Sandbox Code Playgroud)

输入是一个(unicode)字符串,而输出是该字符串以 utf-16 编码的原始字节序列。

我怎样才能在 JavaScript 中做同样的事情——从一个(unicode)字符串,到一个Uint8Array以 utf-16 编码的字符串的原始字节序列(也许是一个?)?

javascript unicode encoding utf-16

6
推荐指数
1
解决办法
2万
查看次数

如何在c中打印utf-16字符

int main() 
{
    char c = 0x41;
    printf("char is : %c\n",c);

    c = 0xe9;
    printf("char is : %c\n",c);

    unsigned int d = 0x164e;
    printf("char is : %c\n",d);


    return 0;
}
Run Code Online (Sandbox Code Playgroud)

我要打印的内容是:

在此输入图像描述

我在 Windows 上使用 Ubuntu 64 位 VMware Workstation 并使用八进制转储:

在此输入图像描述

utf-16 LE txt 文件中三个字符的十六进制值。

输出:

在此输入图像描述

如何正确打印出utf-16字符?

c unicode utf-16

6
推荐指数
0
解决办法
9295
查看次数

Java使用UTF-8或UTF-16编码?

我已经阅读了以下帖子:

  1. 什么是Java的String内部代表?修改过的UTF-8?UTF-16?
  2. https://docs.oracle.com/javase/8/docs/api/java/lang/String.html

现在考虑下面给出的代码:

public static void main(String[] args) {
    printCharacterDetails("?");
}

public static void printCharacterDetails(String character){
    System.out.println("Unicode Value for "+character+"="+Integer.toHexString(character.codePointAt(0)));
    byte[] bytes = character.getBytes();
    System.out.println("The UTF-8 Character="+character+"  | Default: Number of Bytes="+bytes.length);
    String stringUTF16 = new String(bytes, StandardCharsets.UTF_16);
    System.out.println("The corresponding UTF-16 Character="+stringUTF16+"  | UTF-16: Number of Bytes="+stringUTF16.getBytes().length);
    System.out.println("----------------------------------------------------------------------------------------");
}
Run Code Online (Sandbox Code Playgroud)

当我尝试character.getBytes()在上面的代码中调试行时,调试器将我带入getBytes()String类的方法,然后进入static byte[] encode(char[] ca, int off, int len)StringCoding类的方法.String csn = Charset.defaultCharset().name();在调试过程中,encode method()的第一行返回"UTF-8"作为默认编码.我预计它会是"UTF-16".

该计划的输出是:

最大的Unicode值= 6700 UTF-8字符=最| 默认值:字节数= 3

相应的UTF-16字符= | UTF-16:字节数= 6 …

java encoding default utf-8 utf-16

6
推荐指数
1
解决办法
1万
查看次数