在哪里可以找到可下载格式的12.1中所有137,929个命名Unicode字符

Lan*_*ard 2 database unicode

我已经下载了12.1.0 unicode数据,并且在文件UnicodeData.txt中只有32,841行,因此只有〜30k个字符。想知道其他105,088个字符在哪里,但我一直找不到。想知道他们是在某个地方Unihan.zip还是在某个地方UCD.zip。我似乎在这里找不到此信息。

想知道我用什么文件结束了所有命名字符的数据库。

Cra*_*nes 6

技术报告中所述,其中的某些条目UnicodeData.txt是字符范围

为了向后兼容,文件UnicodeData.txt中的范围由范围的开始和结束字符的条目指定,而不是由“ X..Y”形式指定。起始字符由范围标识符指示,后跟尖括号中的逗号和字符串“ First”。该条目代替该行的字段1中的常规字符名称。结束字符在下一行用相同的范围标识符表示,后跟尖括号中的逗号和字符串“ Last”:

4E00;<CJK Ideograph, First>;Lo;0;L;;;;;N;;;;;
9FEF;<CJK Ideograph, Last>;Lo;0;L;;;;;N;;;;;
Run Code Online (Sandbox Code Playgroud)

换句话说,UnicodeData.txt文件中的行数与数据库中的字符数不同。一些字符范围由仅两行编码的成百上千个字符组成。

  • 由于字符范围主要是CJK表意文字,因此我认为它们本身都没有“名称”。大多数应用似乎使用带代码点后缀的范围名称,例如“ CJK Ideograph-3401”。字符含义的描述在`Unihan_Readings.txt`中(在[`Unihan.zip`](https://unicode.org/Public/12.1.0/ucd/Unihan.zip)中)。 (2认同)