raf*_*mag 26 dictionary aspell spell-check
我想从 aspell 字典中获取所有单词的列表。我下载了 aspell 和 aspell 波兰语词典,然后使用以下命令解压缩:
preunzip pl.cwl
Run Code Online (Sandbox Code Playgroud)
我得到pl.wl
:
...
hippie
hippies
hippiesowski/bXxYc
hippika/MNn
hippis/NOqsT
hippisiara/MnN
hippiska/mMN
hippisowski/bXxYc
...
Run Code Online (Sandbox Code Playgroud)
但它们以/bXxYc
或 等后缀出现/MNn
。这些后缀在 中定义pl_affix.dat
,看起来像
...
SFX n Y 5
SFX n a 0 [^ij]a
SFX n ja yj [^aeijoóuy]ja
SFX n a 0 [aeijoóuy]ja
SFX n ia ij [^drt]ia
SFX n ia yj [drt]ia
...
Run Code Online (Sandbox Code Playgroud)
它与偏角和共轭有关。如何将所有表单(带有.dat
文件中定义的所有相应后缀)添加到第一个列表中?
顺便说一句:我需要这个列表来拼写检查jazzy
。
Den*_*son 30
试试这个:
aspell -d pl dump master | aspell -l pl expand > my.dict
Run Code Online (Sandbox Code Playgroud)
编辑以匹配评论中的更正。
对于某些语言,例如意大利语,扩展是不够的,您将必须进行更多处理才能获得简单单词列表。
这是我用来获取意大利语单词列表的命令(请注意,执行需要一些时间):
aspell -d it dump master | aspell -l it expand | sed "s/\w*'//g;s/ \+/\n/g" |
awk '{ print tolower($0) }' | uniq > wordlist.txt
Run Code Online (Sandbox Code Playgroud)
Aspell 扩展:
aspell -d it dump master | aspell -l it expand > list1
a
ab
abaco Quell'Abaco quell'Abaco quell'abaco Quest'Abaco quest'Abaco quest'abaco D'Abaco d'Abaco d'abaco Coll'Abaco coll'Abaco coll'abaco Sull'Abaco sull'Abaco sull'abaco Nell'Abaco nell'Abaco nell'abaco Dall'Abaco dall'Abaco dall'abaco Dell'Abaco dell'Abaco dell'abaco All'Abaco all'Abaco all'abaco L'Abaco l'Abaco l'abaco Bell'Abaco bell'Abaco bell'abaco Brav'Abaco brav'Abaco brav'abaco abachi
Abacuc
...
Run Code Online (Sandbox Code Playgroud)
删除撇号(包括)之前的所有字符:
sed "s/\w*'//g" list1 > list2
a
ab
abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco Abaco Abaco abaco abachi
Abacuc
...
Run Code Online (Sandbox Code Playgroud)
在空格上换行:
sed "s/ \+/\n/g" list2 > list3
a
ab
abaco
Abaco
...
Run Code Online (Sandbox Code Playgroud)
将整个内容小写以便uniq
无需排序即可使用:
awk '{ print tolower($0) }' list3 > list4
a
ab
abaco
abaco
...
Run Code Online (Sandbox Code Playgroud)
删除重复项:
uniq list4 > list5
a
ab
abaco
abachi
...
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
18548 次 |
最近记录: |