标签: linguistics

TL; DR摘要:我需要一个命令行应用程序,我可以使用它来获取同义词和其他相关单词.它需要多语言,跨平台工作.任何人都可以为我推荐一个合适的程序,或者帮助我找到我已经找到的程序？谢谢.

更长的版本: 我的任务是编写一个PHP系统,可以为用户输入的单词提供替代建议.我需要找到一个同义词库应用程序/ API或类似的,我可以用来生成这些建议.

重要的是,它需要多语言(英语,丹麦语,法语和德语).这排除了我使用Google设法找到的大部分软件.它还需要跨平台(它需要在Linux和Windows上运行).

我的研究让我有两个有希望的候选人:WordNet和Stardict.

到目前为止,我一直专注于WordNet,使用该shell_exec()函数从PHP调用它,并且我已经设法使用它来创建一个非常有前途的原型PHP页面,但到目前为止只用英语.我正在努力学习如何多语言使用它.

Wordnet站点有外部链接到其他语言的Wordnet项目(例如DanNet for Danish),但是虽然它们通常被称为Wordnet,但它们似乎使用各种数据库格式和软件,这使得它们不适合我.我需要一个可以从我的PHP程序调用的一致接口.

从这个角度来看,Stardict看起来更有希望:它们以标准数据库格式为一个应用程序提供多种语言的字典.

但Stardict的缺点是它主要是一个GUI应用程序.从命令行调用它会启动GUI.显然有一个命令行版本(SDCV),但它似乎已经过时了(上次更新2006),并且仅适用于Linux.

任何人都可以帮助我解决这些程序中的问题吗？或者,任何人都可以建议我可以使用的任何其他替代软件或API吗？

非常感谢.

php linguistics thesaurus

Spu*_*ley

2011 05-10

12
推荐指数

2
解决办法

5049
查看次数

nltk中使用前瞻和回溯依赖关系的句子的概率树

nltk或任何其他NLP工具是否允许基于输入句子构造概率树,从而将输入文本的语言模型存储在字典树中,以下示例给出了粗略的想法,但我需要相同的功能,使得单词Wt可以不仅仅是对过去的输入词(历史)Wt-n进行概率建模,而且还对Wt + m等前瞻性词进行概率建模.此外,回顾和前瞻字数也应该是2或更多,即bigrams或更多.python中有没有其他库可以实现这个目的？

from collections import defaultdict
import nltk
import math

ngram = defaultdict(lambda: defaultdict(int))
corpus = "The cat is cute. He jumps and he is happy."
for sentence in nltk.sent_tokenize(corpus):
    tokens = map(str.lower, nltk.word_tokenize(sentence))
    for token, next_token in zip(tokens, tokens[1:]):
        ngram[token][next_token] += 1
for token in ngram:
    total = math.log10(sum(ngram[token].values()))
    ngram[token] = {nxt: math.log10(v) - total for nxt, v in ngram[token].items()}

Run Code Online (Sandbox Code Playgroud)

解决方案需要前瞻和回顾,特殊的子类字典可能有助于解决这个问题.也可以指向谈论实现这样一个系统的相关资源.nltk.models似乎做了类似的事情,但已不再可用.NLP中是否存在实现此想法的现有设计模式？基于跳过克的模型也类似于这个想法,但我觉得这应该已经在某处实现了.

python dictionary nlp linguistics nltk

sta*_*kit

2017 05-23

12
推荐指数

1
解决办法

866
查看次数

用R中的变音符号制表字符

我正在尝试将字符串中出现的电话(字符)列表,但是变音符号会自行列表为字符.理想情况下,我在国际音标中有一个单词表,有相当数量的变音符号和它们与基本字符的几种组合.我在这里只给出了一个单词的MWE,但是单词列表和更多类型的组合也是如此.

> word <- "n?ana" # word constituted by 4 phones: [n?],[a],[n],[a]
> table(strsplit(word, ""))
 ? a n 
1 2 2

Run Code Online (Sandbox Code Playgroud)

但想要的结果是:

a n n?
2 1 1

Run Code Online (Sandbox Code Playgroud)

我怎样才能获得这种结果？

unicode nlp r linguistics

Ste*_*ano

lucky-day

11
推荐指数

1
解决办法

192
查看次数

在浏览器中渲染语言语法树

输入是:

(1)带有标记内部节点的树的括号表示,例如:

(S (N John) (VP (V hit) (NP (D the) (N ball))))

Run Code Online (Sandbox Code Playgroud)

输出:

在此输入图像描述

(线是否为虚线以及标题是否存在并不重要.)

或输入可能是:

(2)对没有标签的单词进行包围,例如:

((John) ((hit) ((the) (ball))))

Run Code Online (Sandbox Code Playgroud)

输出与上面相同(这次没有内部标签,只有树形结构).

输入的另一个组成部分是树是标记为(1)还是未标记为(2).

我的问题:在javascript中在浏览器中呈现这些树的最佳方式(最快的开发时间)是什么？一切都应该发生在客户端.

我想象一个简单的界面只有一个文本框(和一个单选按钮,指定它是否是标记的树),当更改时,触发树渲染(如果输入没有任何语法错误).

javascript rendering nlp linguistics

dsg*_*dsg

2012 03-05

10
推荐指数

2
解决办法

905
查看次数

估计两个词之间的音素相似性

我正在使用卡内基梅隆大学的发音词典检测Python中的押韵,并且想知道:我如何估计两个单词之间的音素相似度？换句话说,是否有一种算法可以识别"手"和"计划"比"手"和"薯条"更接近押韵的事实？

一些上下文:首先,我愿意说两个单词押韵,如果它们的主要重读音节和所有后续音节相同(如果你想在Python中复制,则为c06d):

def create_cmu_sound_dict():

    final_sound_dict = {}

    with open('resources/c06d/c06d') as cmu_dict:
        cmu_dict = cmu_dict.read().split("\n")
        for i in cmu_dict:
            i_s = i.split()
            if len(i_s) > 1:
                word = i_s[0]
                syllables = i_s[1:]

                final_sound = ""
                final_sound_switch = 0

                for j in syllables:
                    if "1" in j:
                        final_sound_switch = 1
                        final_sound += j
                    elif final_sound_switch == 1:
                        final_sound += j

            final_sound_dict[word.lower()] = final_sound

    return final_sound_dict

Run Code Online (Sandbox Code Playgroud)

如果我然后跑

print cmu_final_sound_dict["hands"]
print cmu_final_sound_dict["plans"]

Run Code Online (Sandbox Code Playgroud)

我可以看到手和计划听起来非常相似.我可以自己估计这种相似性,但我想我应该问:是否有复杂的算法可以将数学值与这种声音(或听觉)相似度联系起来？也就是说,可以使用哪些算法或包来对两个单词之间的音素相似度进行数学计算？我意识到这是一个很大的问题,但我非常感谢其他人可以就这个问题提出的建议.

python algorithm nlp linguistics phoneme

duh*_*ime

2014 10-21

10
推荐指数

1
解决办法

1938
查看次数

标签统计

linguistics ×10

nlp ×6

python ×4

algorithm ×3

cpu-word ×1

data-mining ×1

dictionary ×1

javascript ×1

language-agnostic ×1

nltk ×1

phoneme ×1

php ×1

r ×1

rendering ×1

thesaurus ×1

unicode ×1

标签 统计

标签统计