哪里可以找到汉字注音/拼音数据?

Nat*_*eit 1 dataset internationalization opendata chinese-locale

我正在寻找包含 bopomofo 和/或拼音中所有汉字普通话发音的数据集。另外,我需要可以将其复制到我自己的代码库中的开源数据集。

tsr*_*ten 5

听起来您可能正在寻找 Unihan 数据库。Unihan 数据库由 Unicode 联盟维护。

\n
\n

Unihan 数据库是 Unicode 联盟\xe2\x80\x99s 集体知识\n关于 Unicode 标准中包含的 CJK 统一表意文字的存储库。它包含映射数据以允许与其他编码字符集之间的转换,以及附加信息以帮助实现对使用汉字的各种语言的支持。

\n
\n

例如,以下是\xe7\x88\xb1 的数据

\n

以下是Unihan 数据库的组织和内容的描述。请务必阅读该内容以了解数据所指的内容。

\n

如果这是您想要的信息,您可以下载包含所有这些数据的ZIP 存档。

\n

Unihan 数据库没有 Bopomofo(注音)发音,但有拼音读音。从拼音转换为注音很简单;有很多在线工具可以为您做到这一点。

\n

至于许可问题,Unihan 数据库数据文件有自由的版权声明。因此,您在自己的软件中使用该数据不应遇到任何问题。

\n