是否在"音频分析"领域进行了先前的开源工作以检测人声(即尽管有一些背景噪声),确定说话者的性别,可能确定不.发言者,发言者的年龄和发言者的情绪?
我的预感是像CMU Sphinx这样的语音识别软件可能是一个很好的起点,但如果有更好的东西,它会很棒.
我想知道是否有一个API在Java中进行文本分析.可以提取文本中的所有单词,单独的单词,表达式等的东西.如果找到的单词是数字,日期,年份,名称,货币等,可以通知的东西.
我现在开始进行文本分析,所以我只需要一个API来启动.我做了一个网络爬虫,现在我需要一些东西来分析下载的数据.需要计算页面中单词数量,类似单词,数据类型和与文本相关的其他资源的方法.
Java中是否有用于文本分析的API?
编辑:文本挖掘,我想挖掘文本.提供此功能的Java API.
我想使用命名实体识别(NER)来为数据库中的文本找到足够的标签.
我知道维基百科有关于此的文章以及许多描述NER的其他页面,我最好从您那里听到有关此主题的内容:
例:
"去年,我在伦敦看到巴拉克奥巴马." =>标签:伦敦,巴拉克奥巴马
我希望你能帮助我.非常感谢你提前!
我想要做的是扫描一组Java类,并从抽象类的特定方法跟踪所有方法调用,并在该上下文中,构建执行某些操作的所有代码的列表(在本例中,实例化)某个类的实例).我想知道,行号和提供的参数.
我已经开始关注BCEL,但它似乎没有内置调用图形跟踪?我犹豫要写自己的,因为获得重载,类型签名和多态分派权可能是棘手的.
我一半期望存在一个工具或示例代码,但我还没有找到任何东西.我真的觉得我要重新发明一个轮子.但是,如果我这样做将是一个开源轮,可在GitHub上使用;-)
PS:你会发现现有的问题" 如何生成Java调用图 ",因为它听起来完全一样,但它根本不是我需要的.
我正在开展一个项目,我需要分析一个文本页面和文本页面集合以确定主导词汇.我想知道是否有一个库(更喜欢c#或java)来处理繁重的工作.如果没有,是否有一个算法或多个可以实现我的目标.
我想要做的是类似于你在网上找到的url或rss feed构建的单词云,除了我不想要可视化.他们一直用于分析总统候选人的演讲,看看主题或最常用词是什么.
复杂的是,我需要在成千上万的短文档,然后是这些文档的集合或类别上执行此操作.
我最初的计划是解析文档,然后过滤常用词 - ,他,她等等.然后计算剩余词出现在文本中的次数(以及整个集合/类别).
问题是,在将来,我想处理词干,复数形式等.我还想看看是否有办法识别重要的短语.(而不是一个单词的计数,短语的计数一起是2-3个单词)
有关策略,库或算法的任何指导都会有所帮助.
我正在阅读有关算法分析的内容,我读到某种算法(加权快速联合路径压缩)的顺序为N + M lg*N.显然这是线性的,因为lg*N在这个宇宙中是一个常数.这里提到了什么数学运算.我不熟悉符号lg*N.
这个问题参考了打击代码:
cost = [[1, 10, 75, 92],
[-1, 0, 35, 50],
[-1, -1, 0, 80],
[-1, -1, -1, 0]]
def min_cost(source, destination):
if s==d or s == d-1:
return cost[s][d]
mc = cost[s][d]
for i in range(s+1, d):
tmp = min_cost(s, i) + min_cost(i, d)
if tmp < mc:
mc = tmp
return mc
Run Code Online (Sandbox Code Playgroud)
当我做同样的干运行时,我看到min_cost(1,3)被执行了2次.我在一本书中读过作者提到如果我们之间有10个电台,那么min_cost(1,3)会运行144次.
如何在不实际干运的情况下弄清楚这些数字.我知道使用递归方程我们可以计算出函数所花费的时间但是怎么能说这个特定的函数会被执行很多次呢?
免责声明:是的,这是一个家庭作业,我正在思考它几天但却找不到路要走.
所以有n条直线(y = ax + b),我想找到它们的上部包络线(图中的粗体部分).它必须在O(nlogn).
我的理解是,我需要找到一种方法来忽略一些行,因为如果我搜索所有行,它将不是O(nlogn).
我正在考虑分而治之的方法,以便我可以将列表分成两部分并递归地继续直到解决方案.但后来我不知道如何摆脱一些线路.很明显,我不需要考虑图片中的一些底线,因为他们不可能为解决方案做出贡献.但是我没有想到任何事情.任何提示都表示赞赏.

我想用n-gram(最好用PHP)实现一些应用程序.
哪种类型的n-gram更适合大多数用途?单词级别或字符级别n-gram?你怎么能在PHP中实现一个n-gram-tokenizer?
首先,我想知道N-gram到底是什么.它是否正确?这就是我理解n-gram的方式:
句子:"我住在纽约."
单词级别的双字母(n为2):"#I","我活着","住在纽约","NY#"
字符级别双字母(n为2):"#I","I#","#l","li","iv","ve","e#","#i","in"," n#","#N","NY","Y#"
如果你有这个n-gram-parts数组,你可以删除重复的数组并为每个给出频率的部分添加一个计数器:
单词级别双字母:[1,1,1,1,1]
字符级别的双字母:[2,1,1,...]
它是否正确?
此外,我想了解更多关于你可以用n-gram做什么:
您如何看待我的应用方法,特别是最后一个?
我希望你能帮助我.提前致谢!
是否有适用于Eclipse CDT的静态代码分析的好插件?到目前为止我找到了两个:
还有更好的吗?或者我如何让CppChecker做某事(或者它是一个静态代码分析器?网站根本不清楚)?