标签: natural-language

将 UTF-8 文件转换为 ASCII(尽力而为)

我有一个 UTF-8 文件,其中包含多种语言的文本。很多都是人名。我需要将它转换为 ASCII 并且我需要结果看起来尽可能体面。

有多种方法可以将较宽的编码转换为较窄的编码。最简单的转换是将所有非 ASCII 字符替换为某个占位符,例如“_”。如果我知道文件所用的语言,还有其他可能性,比如罗马化。

Unix 上可用的什么 Unix 工具或编程语言库可以让我从 UTF-8 到 ASCII 进行体面的(尽力而为)转换?

大部分文本是基于欧洲、拉丁类型的语言。

character-encoding text natural-language

33
推荐指数
3
解决办法
10万
查看次数

是否有 Unix 命令搜索相似的字符串,主要基于它们说话时的声音?

我有一个名称文件,我想在其中进行搜索,而不是太在意我是否正确拼写了名称(我正在搜索的名称)。我知道它grep有相当多的功能可以在文件或流中搜索大量类似的字符串,但据我所知,它没有纠正拼写错误的功能,即使有,因为这些是人名,在标准字典中找不到。

也许我可以把我的名字文件做成一个特殊的字典,然后使用一些标准的拼写检查工具?在这个应用程序中特别重要的是匹配发音相似的单词的能力。

例如:"jacob"应该返回"Jakob"。如果语言间的相似性也被考虑在内,那就更好了,这样"miguel"应该匹配"Michael"

这是已经实施的东西,还是我必须自己构建?

search text natural-language pattern-matching

7
推荐指数
1
解决办法
1202
查看次数

非英语文本中的单词频率:如何合并单复数形式等?

我正在根据频率对某些文本文件中的法语单词进行排序,重点是洞察力而不是统计意义。挑战在于在塑造单词标记以进行排序的上下文中保留重音字符并处理元音(,)前面的冠词形式l'd'

文件中最常用词的主题有多种形状(1 | 2 | 3 | 4)。所以我使用GNU实用程序组合了这个函数:

compt1 () {
for i in *.txt; do
    echo "File: $i"
    sed -e 's/ /\
/g' <"$i" | sed -e 's/^[[:alpha:]][[:punct:]]\(.*\)/\1/' | sed -e 's/\(.*\)/\L\1/' | grep -hEo "[[:alnum:]_'-]+" | grep -Fvwf /path_to_stop_words_file | sort | uniq -c | sort -rn 
done
}
Run Code Online (Sandbox Code Playgroud)

...换行换行;修剪一个字符,后跟位于行首的标点符号;然后将所有内容转换为小写;使用这种grep匹配单词组成字符的紧凑结构来创建标记;然后去掉停用词,最后就是通常的排序。该站文件包含单个字符,所以你必须要小心,它是如何使用的部分,但提供了关于如何创建分析的话在不同的语言真的很有趣!

现在,当我将重要单词的频率与grep -c直接在文件上的输出进行比较时,我认为它在一定的误差范围内已经足够接近了。


问题: …

sed shell-script text-processing portability natural-language

5
推荐指数
1
解决办法
614
查看次数

如何让这个conky(Conky Vision)使用英语以外的其他语言?

我想使用这个 conky 脚本:Conky Vision

\n\n

在此输入图像描述

\n\n

但我不希望一周中的几天以英语显示。

\n\n

当我将区域设置更改为另一种语言时,今天会以该语言显示,但图像下部的 5 天名称始终为英语,即使我将系统语言更改为其他语言也是如此。

\n\n

我也更改了系统语言,但那些日子仍然显示为英文。

\n\n

我应该对该脚本进行哪些更改才能使其遵循我想要的语言?

\n\n

conkyrc 文件包含以下内容:

\n\n
# Conky settings #\nbackground yes\nupdate_interval 1\ndouble_buffer yes\nno_buffers yes\n\n# Window specifications #\ngap_x 0\ngap_y 0\nalignment middle_middle\nminimum_size 600 460\nmaximum_width 600\nown_window yes\nown_window_type normal\nown_window_transparent yes\nown_window_hints undecorate,sticky,skip_taskbar,skip_pager,below\nown_window_argb_visual yes\nown_window_argb_value 255\n#border_margin 0\n#border_inner_margin 0\n#border_outer_margin 0\n\n# Graphics settings #\ndraw_shades no\ndraw_outline no \ndraw_borders no\ndraw_graph_borders no\n\n# Text settings #\nuse_xft yes\nxftalpha 0\nxftfont Raleway:size=10\n\noverride_utf8_locale yes\n\nimlib_cache_size 0\n\n# Color scheme #\ndefault_color FFFFFF\n\ncolor1 FFFFFF\n\nTEXT\n\\\n#-----WOIED-----#\n\\\n\\\n${execi 300 curl -s "http://weather.yahooapis.fr/forecastrss?w=615702&u=c" -o ~/.cache/weather.xml}\\\n\\\n\\\n#---Clock+Date---#\n\\\n\\\n${font Raleway:weight=Light :size=100}${alignc}${time %H}${alignc}:${alignc}${time %M}\n${font Raleway:weight=Light:size=32}${voffset -60}${alignc}${time %A …
Run Code Online (Sandbox Code Playgroud)

linux ubuntu conky elementary-os natural-language

4
推荐指数
1
解决办法
5863
查看次数