我想将语音记录与已知文本同步.是否有语音到文本/自然语言处理库可以促进这一点?我想我想要检测单词边界并从字典中计算候选匹配.我在SO上发现的大部分问题都与书面语言有关.
期望但不是必需的:
编辑:我意识到这是一个非常广泛,甚至是天真的问题,所以提前感谢您的指导.
到目前为止我发现了什么:
我想知道人们是否可以发布一些有趣的网站和使用Erlang构建的网络应用程序的例子?
我可以从一些基于Erlang的网站开始:
我的任务是在文本中搜索陈词滥调和常用短语.这些短语类似于你可能在"命运之轮"上的短语拼图中看到的短语.这里有一些例子:
但是我找不到一个短语列表.有人知道这样的清单吗?
说真的,即使是所有Wheel of Fortune解决方案的清单也足够了.
我有一组Books对象,类Book定义如下:
Class Book{
String title;
ArrayList<tags> taglist;
}
Run Code Online (Sandbox Code Playgroud)
当标题是本书的标题,例如:使用Javascript傻瓜.
和taglist是我们示例的标签列表:Javascript,jquery,"web dev",..
正如我所说,有一套书谈论不同的东西:IT,生物,历史......每本书都有一个标题和一组描述它的标签.
我必须按主题自动将这些书分类为分开的集合,例如:
IT书籍:
历史书:
生物学书籍:
你们知道一种分类算法/方法来申请这类问题吗?
解决方案是使用外部API来定义文本的类别,但问题在于书籍使用不同的语言:法语,西班牙语,英语.
当我在这里问一个问题时,自动搜索返回的问题的工具提示给出了问题的第一点,但是它们中的相当一部分没有给出任何对理解问题更有用的文本而不是标题.有没有人知道如何制作一个过滤器来修剪问题的无用位?
我的第一个想法是修剪任何只包含某些列表中的单词的主要句子(例如,停止单词,加上标题中的单词,加上SO语料库中与标签具有非常弱相关性的单词,这同样可能是无论标签是什么,都会出现在任何问题中)
我有一个数据集,在底层文本上有多层注释,例如部分标签,来自浅层解析器的块,名称实体以及来自各种 自然语言处理(NLP)工具的其他部分.对于像这样的句子The man went to the store
,注释可能如下所示:
Word POS Chunk NER ==== === ===== ======== The DT NP Person man NN NP Person went VBD VP - to TO PP - the DT NP Location store NN NP Location
我想使用Lucene索引一堆带有这些注释的文档,然后在不同的层上执行搜索.简单查询的一个示例是检索华盛顿被标记为人的所有文档.虽然我并不是完全致力于表示法,但语法上的最终用户可能会按如下方式输入查询:
查询:Word=Washington,NER=Person
我还想做更复杂的查询,涉及跨不同层的注释的连续顺序,例如,找到所有文档,其中有一个单词标记的人,后面arrived at
是单词标记位置的单词.这样的查询可能如下所示:
查询:"NER=Person Word=arrived Word=at NER=Location"
用Lucene来解决这个问题的好方法是什么?无论如何索引和搜索包含结构化令牌的文档字段?
有效载荷
一个建议是尝试使用Lucene 有效负载.但是,我认为有效载荷只能用于调整文档的排名,并且它们不用于选择返回的文档.
后者很重要,因为对于某些用例,包含模式 …
我认为这是一个有趣的问题,至少对我而言.
我有一个单词列表,让我们说:
照片,免费,搜索,图像,css3,css,教程,网页设计,教程,谷歌,中国,审查制度,政治,互联网
我有一个上下文列表:
如果可能的话,我需要尝试将单词与适当的上下文/上下文匹配.
也许以某种方式发现单词关系.
有任何想法吗?
非常感谢帮助!
假设有一句话:
On March 1, he was born.
Run Code Online (Sandbox Code Playgroud)
把它改成
He was born on March 1.
Run Code Online (Sandbox Code Playgroud)
没有打破句子的意义,它仍然有效.以任何其他方式改组单词会对无效句子产生怪异.所以基本上,我说的是句子的一部分,它使信息更具体,但删除它们并不会破坏整个句子.是否有任何NLP库可以识别这些部件?
nlp ×8
java ×4
linguistics ×2
c# ×1
data-mining ×1
dictionary ×1
django ×1
dll ×1
erlang ×1
heuristics ×1
lucene ×1
numerical ×1
python ×1
quadratic ×1
solver ×1
statistics ×1
text-mining ×1
web ×1