/usr/share/dict/words 中的单词从何而来?

Mar*_*ery 16 dictionary words

/usr/share/dict/words包含很多单词。这个列表是如何生成的?它的内容在不同的 Unices 中是否相同?是否有任何标准规定它必须包含什么?

到目前为止,我所能找到的是,在 Ubuntu/Debian 上,列表来自wordlist包,但它们的描述没有提供关于列表是如何实际生成的线索。

big*_*ose 15

您问了多个问题,但我认为主要问题是:

是否有任何标准规定它必须包含什么?

据我所知,没有。

鉴于此,您的相关问题:

这个列表是如何生成的?它的内容在不同的 Unices 中是否相同?

回答“这取决于每个不同的 Unix”。

包括单词列表作为操作系统的一部分的惯例来自spell(1)实用工具,它使用它原始的拼写检查程序。

1982 年,贝尔实验室的 MD McIlroy在学术论文“开发拼写列表”中描述了该拼写检查程序。

您应该检查操作系统的包管理器,了解拼写列表的来源、生成方式以及可用的替代方法。

在 Debian GNU+Linux 上,例如:

  • /usr/share/dict/words文件是使用 Debian “替代品”系统管理的符号链接。
  • 提供该链接的常见单词列表包是wamerican包。
  • wamerican其单词列表的包文档来自SCOWL(面向拼写检查器的单词列表)项目。

可以安装许多其他单词列表包;他们每个人都有“提供:词表”字段:

$ aptitude search '?provides(wordlist)' | wc -l
34
Run Code Online (Sandbox Code Playgroud)

在不同的 Unices 上,您需要查看软件包系统和文档以了解单词列表的出处和替代方法。

  • FWIW:在最小的 Centos 7 x64 安装(缺少 words 文件)上,`yum install words` 对我有用。 (4认同)