牛津词典的单词列表文件

MaY*_*YaN 8 .net dictionary cpu-word

我需要有一个基于牛津词典中单词列表的dict文件.现在我可以访问Linux的单词列表,这对我的目的不利.有谁知道我可以下载这个,因为谷歌搜索的时间已经抛出一个空参数异常!

Jim*_*hel 11

虽然您不太可能下载OED列表,但有许多不同的单词列表可用.但是,您可能需要做一些工作来将单词与定义分开.

一个好的起点是http://www.dicts.info/dictionaries.php

白鲸项目看起来很有希望,特别是他们的610,000+单词列表(即页面上最后一个环节).

您还可以下载Wikitionary转储.您必须从XML中提取单词.

很多选择.你应该能够找到一个适合你需求的产品.


Mar*_*ean 8

相当晚,但是这将下载英文维基词典中所有单词的压缩列表,而不需要解析XML(尽管需要一些最小的解析):

curl http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles.gz ~/Downloads/titles.gz
Run Code Online (Sandbox Code Playgroud)

从那里,您需要做的就是解压缩文件并使其成为纯文本文件:

gunzip ~/Downloads/titles.gz
mv ~/Downloads/titles ~/Downloads/titles.txt
Run Code Online (Sandbox Code Playgroud)

要解析列表,请使用类似这样的内容,这将检索完全由小写英文字母组成的所有单词的列表:

grep "^[a-z]\{1,\}$" ~/Downloads/titles.txt | sort | uniq >> ~/Downloads/words.txt
Run Code Online (Sandbox Code Playgroud)

  • 2016年后的任何人:网址是https://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles.g请注意http**s** (3认同)