我正在为我正在进行的项目构建一个符号表.我想知道人们对可用于存储和创建符号表的各种方法的优点和缺点的看法.
我做了很多搜索,最常推荐的是二叉树或链表或哈希表.以上所有优点和缺点是什么?(在c ++中工作)
现在看来,每个人都只使用MySQL,因为这正是每个人都喜欢的.我正在开发一个处理大量传入数据的Web应用程序,并且想知道我是否应该"只使用MySQL",或者我是否应该查看其他开源数据库甚至是商业数据库?
编辑:应该提到,我正在寻找最佳性能,与debian 5上运行的ruby + rails集成并且资金紧张虽然如果从长远来看它会节省资金我会考虑投资更昂贵的东西.
我正在研究一个项目,我需要在大量文本中挑选最常见的短语.比如说我们有三个句子如下:
从上面的例子我想提取" 狗跳 ",因为它是文本中最常见的短语.起初我想,"哦,让我们使用有序图[重复节点]":
有向图http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png
编辑:道歉,我把这个图表"翻过","进入"和"向上"都犯了一个错误,所有这些都应该链接回"the".
我将维持每个节点对象中一个单词出现次数的计数("the"将是6;"dog"和"jumped",3;等等)但是尽管存在许多其他问题,但主要出现了我们添加了一些例子(请忽略坏语法:-)):
我们现在有一个问题,因为" dog "会启动一个新的根节点(与"the"处于同一级别),我们不会将" dog jumped " 识别为现在最常见的短语.所以现在我想也许我可以使用无向图来映射所有单词之间的关系,并最终选出常用短语,但我不确定这是如何工作的,因为你失去了重要的秩序关系这些话.
那么,对于如何识别大量文本中的常用短语以及我将使用什么数据结构,任何人都有任何一般性的想法.
谢谢,本
我正在研究A Naive Bayes分类器的实现.编程集体智慧通过将贝叶斯定理描述为:
Pr(A | B) = Pr(B | A) x Pr(A)/Pr(B)
Run Code Online (Sandbox Code Playgroud)
以及与文档分类相关的特定示例:
Pr(Category | Document) = Pr(Document | Category) x Pr(Category) / Pr(Document)
Run Code Online (Sandbox Code Playgroud)
我希望有人可以向我解释这里使用的符号,Pr(A | B)和Pr(A)是什么意思?它看起来像某种功能,但管道是什么意思,等等?(我有点迷路)
提前致谢.
我在strcat和分段错误方面遇到了一些问题.错误如下:
Program received signal EXC_BAD_ACCESS, Could not access memory.
Reason: KERN_INVALID_ADDRESS at address: 0x0000000000000000
0x00007fff82049f1f in __strcat_chk ()
(gdb) where
#0 0x00007fff82049f1f in __strcat_chk ()
#1 0x0000000100000adf in bloom_operation (bloom=0x100100080, item=0x100000e11 "hello world", operation=1) at bloom_filter.c:81
#2 0x0000000100000c0e in bloom_insert (bloom=0x100100080, to_insert=0x100000e11 "hello world") at bloom_filter.c:99
#3 0x0000000100000ce5 in main () at test.c:6
Run Code Online (Sandbox Code Playgroud)
bloom_operation如下:
int bloom_operation(bloom_filter_t *bloom, const char *item, int operation)
{
int i;
for(i = 0; i < bloom->number_of_hash_salts; i++)
{
char temp[sizeof(item) + sizeof(bloom->hash_salts[i]) + 2];
strcat(temp, …Run Code Online (Sandbox Code Playgroud) algorithm ×1
bayesian ×1
binary-tree ×1
c ×1
data-mining ×1
database ×1
graph ×1
hashtable ×1
linked-list ×1
mysql ×1
naivebayes ×1
oracle ×1
postgresql ×1
sql ×1
statistics ×1
strcat ×1
string ×1