寻找一个开源的同义词库数据集,其中包含尽可能多的英语根词和同义词.任何解决方案和相关的数据链接将不胜感激.
我正在尝试启动并运行一个简单的同义词数据库,因此我可以找到用户输入的单词的同义词(没有别的!).为此我抓了一个Wordnet sql thesarus(http://wnsql.sourceforge.net/)的副本,但现在我看到了所有这些表,我找不到任何关于其内容的简单解释:
adjpositions
adjpositiontypes
casedwords
lexdomains
lexlinks
linktypes
morphmaps
morphs
postypes
samples
semlinks
senses
synsets
vframemaps
vframes
vframesentencemaps
vframesentences
words
Run Code Online (Sandbox Code Playgroud)
有人可以告诉我这些表包含哪些内容以及我需要哪些内容,因为我无法根据他们的数据来破译他们的内容.
TL; DR摘要:我需要一个命令行应用程序,我可以使用它来获取同义词和其他相关单词.它需要多语言,跨平台工作.任何人都可以为我推荐一个合适的程序,或者帮助我找到我已经找到的程序?谢谢.
更长的版本:
我的任务是编写一个PHP系统,可以为用户输入的单词提供替代建议.我需要找到一个同义词库应用程序/ API或类似的,我可以用来生成这些建议.
重要的是,它需要多语言(英语,丹麦语,法语和德语).这排除了我使用Google设法找到的大部分软件.它还需要跨平台(它需要在Linux和Windows上运行).
我的研究让我有两个有希望的候选人:WordNet和Stardict.
到目前为止,我一直专注于WordNet,使用该shell_exec()函数从PHP调用它,并且我已经设法使用它来创建一个非常有前途的原型PHP页面,但到目前为止只用英语.我正在努力学习如何多语言使用它.
Wordnet站点有外部链接到其他语言的Wordnet项目(例如DanNet for Danish),但是虽然它们通常被称为Wordnet,但它们似乎使用各种数据库格式和软件,这使得它们不适合我.我需要一个可以从我的PHP程序调用的一致接口.
从这个角度来看,Stardict看起来更有希望:它们以标准数据库格式为一个应用程序提供多种语言的字典.
但Stardict的缺点是它主要是一个GUI应用程序.从命令行调用它会启动GUI.显然有一个命令行版本(SDCV),但它似乎已经过时了(上次更新2006),并且仅适用于Linux.
任何人都可以帮助我解决这些程序中的问题吗?或者,任何人都可以建议我可以使用的任何其他替代软件或API吗?
非常感谢.
我在.NET中创建一个应用程序.
我有一个正在运行的应用程序名称http://www.spinnerchief.com/.它做了我需要做的事情,但我没有得到谷歌的任何帮助.我需要我的应用程序的功能结果,用户可以给出一个句子,然后用户可以得到相同的句子,但措辞不同.
这是我想要的一个例子.
假设我写了一句"Pankaj是个好男人".输出应类似于以下内容:
Pankaj是一个伟大的人.
Pankaj是一位出色的男士.
Pankaj是一个可以接受的人.
Pankaj是个很棒的家伙.
Pankaj是一位出色的男性.
Pankaj是个好人.
Pankaj是一位出色的绅士
是否有可供下载的开源词库?它可以是任何格式.最好不要来自1915年的字典.我需要一个合并到数据库应用程序.
我一直在寻找一个vim词库的好解决方案.显然,该功能是内置的,但每个人似乎都使用的文件是mthesaur.txt.虽然它在插入模式中的命令显示列表的意义上"有效",但在我看来,结果是编程正确但不是非常有用.vim在线同义词库插件工作得非常好,但是线路上的延迟和使用拆分返回缓冲区的必要性并不理想.有人对此有意见吗?
我很震惊.
我花了3-4天时间搞清楚如何在SQL Server中实现词干(和同义词搜索)时,我在SQL Server中看到的查询非常简单:
Select * from tab where CONTAINS(*,'FORMSOF(THESAURUS,word)')
Run Code Online (Sandbox Code Playgroud)
可能在MySql上有没有这样的东西?
我正在寻找一个单词列表的文件,也是按字的类型设置的.例如,这种格式的东西
Nouns: {
bus
car
deck
elephant
...
}
Adjectives {
awful
bashful
...
}
Advervb {
...
}
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?
刚刚安装了TeXStudio,因为我认为它具有比TeXmaker更多的功能.
我无法工作的一件事是词库.我已经从LibreOffice下载并安装了丹麦语词典,但它似乎不起作用.
我试过tex.stackexchange,但没有运气.我认为这是一个错误,或libreoffice的.dat文件中的语法坏了,有人可以告诉它有什么问题,以及如何解决它.
提前致谢.
这是一个在FTSdata字段上进行全文搜索的示例表:
CREATE TABLE dbo.tTest (Id INT, FTSdata VARCHAR(100));
INSERT INTO dbo.tTest (Id, FTSdata) VALUES
(1, 'foo WordA'),
(2, 'foo WordAaabbb'),
(3, 'WordB bar'),
(4, 'WordBbbaaa bar');
Run Code Online (Sandbox Code Playgroud)
无论用户是输入"WordA"还是"WordB",我都希望找到所有这些记录.
我的词库看起来像这样:
<expansion>
<sub>WordA</sub>
<sub>WordB</sub>
</expansion>
Run Code Online (Sandbox Code Playgroud)
我需要类似的东西
SELECT *
FROM dbo.tTest
WHERE CONTAINS(FTSdata, 'FORMSOF (THESAURUS, "WordA*")');
Run Code Online (Sandbox Code Playgroud)
但不幸的是,FORMSOF谓词不支持星号.