小编Had*_*har的帖子

使用NLTK对阿拉伯语单词进行标记

我正在使用NLTK word_tokenizer将句子分成单词.

我想将这句话标记为:

??_????? ?? ?? ??? ?????? ???? ...???? ??? ???? ???? ????? ..????? ??? ???? ???? ???? ??? 
Run Code Online (Sandbox Code Playgroud)

我写的代码是:

import re
import nltk

lex = u" ??_????? ?? ?? ??? ?????? ???? ...???? ??? ???? ???? ????? ..????? ??? ???? ???? ???? ???"

wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)
Run Code Online (Sandbox Code Playgroud)

问题是该word_tokenize功能不会被单词拆分.相反,它按字母分割,以便输出为:

"? ? _ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? …
Run Code Online (Sandbox Code Playgroud)

python tokenize nltk

20
推荐指数
1
解决办法
9998
查看次数

用于文档二值化的Niblack算法

我有这张照片:

在此输入图像描述

我正在尝试使用niblack算法进行文档二值化我实现了简单的Niblack算法

T = mean + K*standardDiviation

这就是结果:

在此输入图像描述

问题是图像的某些部分窗口中不包含任何对象,因此它将噪声检测为对象并对其进行详细说明.

我试图应用模糊过滤器然后全局阈值,结果是:

在此输入图像描述

任何其他过滤器都无法解决这个问题我认为唯一的解决办法是阻止算法检测全局噪声,如果窗口我没有对象

我有兴趣使用niblack算法不使用其他算法这样做任何建议吗?

matlab signal-processing image-processing

14
推荐指数
1
解决办法
1万
查看次数

使用C#演奏钢琴音

我正在尝试用C#制作一个简单的钢琴应用程序.

它应该是一个非常简单的钢琴(最多5或6键).我发现了不同的替代方案,而我迄今为止发现的是:

  • consol.beep(); 但我觉得它的声音不像钢琴的音调
  • 保存和播放WAV文件.我想到获得钢琴音色的wav文件,但我觉得这样做是很难的,而且任何可能占用太多不需要的空间都是不可销售的

是否有图书馆可以播放钢琴般的音调或不同乐器的任何不同音调?

c#

10
推荐指数
2
解决办法
2万
查看次数

dotNetRDF VS Jena.NEt和其他人一起使用Dotnet?

什么是用于读取和编写RDF以及使用具有不同端点的Sparql查询的最常用工具.到目前为止我发现了

  • Jena(jena.net):它是为Java开发的,但有些人设法将其转换为Assemblies
  • DotnetRDF

我想知道是否有其他人哪一个最好利用什么是利弊?

semantic-web sparql jena dotnetrdf

8
推荐指数
2
解决办法
2477
查看次数

在python中排序并获取uniq文件行

我总是使用这个命令行来排序并获得uniq行,即使有大文件(超过500,000行)它也可以作为魅力

sort filename.txt | uniq | sponge filename.txt
Run Code Online (Sandbox Code Playgroud)

最短的等效python代码

f = open("filename.txt", "r")
lines = [line for line in f]
lines = lines.sort()
lines = set(lines)
Run Code Online (Sandbox Code Playgroud)

但当然这是不可扩展的,因为内存约束和在python中编写可伸缩代码需要时间,所以我想知道什么是python中最短的等效代码(包)

python command-line unique

7
推荐指数
1
解决办法
1万
查看次数

使用scikitlearn检索错误分类的文档

我很想知道scikitlearn python模块中是否有内置函数,可以检索错误分类的文档.

这很简单我通常通过比较预测和测试向量并从测试文档数组中检索文档来自己编写.但我问它是否有内置的功能,而不是复制我写的每个python代码中的功能.

python numpy machine-learning scipy scikit-learn

7
推荐指数
1
解决办法
3461
查看次数

Sparql的自然语言

我正在基于LinkedIMDB的数据构建一个电影语义搜索引擎的小原型

我已经定义了一些查询类型作为用例的例子

  • 按实体名称搜索
  • 实体类型
  • 搜索两个实体之间的共同特征......等

到目前为止,我已经开发了一个SPARQL引擎,它可以接收任何类型的查询并将查询发送到端点并预览结果.

这里的问题是我想为它创建一个自然语言或半自然语言接口,以便用户使用自然语言搜索查询来调用这些句子.但我不知道从哪里开始.

我发现一些试图从文本中提取三元组的论文,但我觉得这不是解决方案的关键.

我也发现了一些LSA技术来解释自然语言搜索查询,但我觉得它不适用于语义搜索域.

任何想法或资源开始阅读?有没有比自然语言界面更好的做法?

nlp semantic-web sparql

6
推荐指数
1
解决办法
3309
查看次数

计算solr和java中文档中单词的TF-IDF

我可以通过计算文档中的Term数量来轻松获取TF,并且我想知道如何计算文档频率,即包含该术语的文档数量

到目前为止我所获得的是查询solr的大量行并重新计算结果,但这非常耗费时间和内存.我只想算上条款

    SolrQuery q = new SolrQuery();
    q.setQuery("tweet_text:"+kw);
    q.addField("tweet_text");
    q.setRows(40000000);        
    SolrDocumentList results = null ;

    try {
        QueryResponse rsp = solrServer.query(q);
        results = rsp.getResults();
    } catch (SolrServerException e) {
        e.printStackTrace();
    }

    ArrayList<String> tweets = new ArrayList<String>();
    for (SolrDocument doc : results)
    {
        tweets.add(doc.getFieldValue("tweet_text").toString());
    }
Run Code Online (Sandbox Code Playgroud)

java solr nlp tf-idf

4
推荐指数
1
解决办法
5451
查看次数

C#中的"设置"类

我正在使用C#和sliverlight阅读Windows Phone 7的教程,我发现了这一行

public static class Settings
{
    public static readonly Setting<bool> IsRightHanded = 
        new Setting<bool>("IsRightHanded", true);

     public static readonly Setting<double> Threshold =
        new Setting<double>("Threshold", 1.5);
}
Run Code Online (Sandbox Code Playgroud)

我找不到Setting类的C# 我想知道,如果它是在一个特殊的命名空间或需要一个额外的参考加

.net c# windows-phone-7

3
推荐指数
1
解决办法
1505
查看次数

scala中的默认类型参数

我有这个特点

trait Extractor extends Mapping[Node]
Run Code Online (Sandbox Code Playgroud)

什么是最简单的方法来更改它以采用默认值的类型参数

trait Extractor[T] extends Mapping[**T if given else Node**] 
Run Code Online (Sandbox Code Playgroud)

其他类似的问题涉及一些关于上限和下限类型的无关细节

scala type-parameter

3
推荐指数
1
解决办法
1138
查看次数