这些天我对推荐引擎感兴趣,我想在这个领域提高自己.我正在阅读" 编程集体智慧 "我认为这是关于这个主题的最好的书,来自O'Reilly.但我对如何实施引擎没有任何想法; 我的意思是"不知道"是"不知道如何开始".我脑子里有一个像Last.fm这样的项目.
algorithm semantic-web recommendation-engine machine-learning collective-intelligence
假设您想要估计不公布此信息的站点的用户群的大小.
人们更有可能获得具有不同概率的不同用户名.例如,如果系统上不存在用户名"nick",则可能具有极小的用户群.如果用户名为"starbaby",则可能是一个更大的网站.这似乎是一个简单的贝叶斯问题.
存在的问题是,不同的站点可能具有不同的允许用户名空间.我想,最大的问题是空间等常见字符的合法性.另一个可能会污染先前发布的问题是网站是否会在您想要的网站上显示名称,或者让您自己想出更具创意的名称.
您如何构建跨不同系统的用户名出现频率的训练集?有没有办法使用贝叶斯进行数值估算而不是分类到固定宽度的桶?
math machine-learning probability bayesian collective-intelligence
首先,我意识到这是一个非常类似的问题:哪个是.net/java中集体智能的优秀开源库?
...但是那个问题的所有答案都是以Java为中心的,所以我再次提出要求,这次更多地寻找.Net(理想C#)的想法.
一点背景; 我最近阅读了Toby Segran关于CI的优秀书籍,我刚刚掌握了Satnam Alag的书(我确信它也非常出色,但我刚刚打开它).这些是以Python和Java为中心的,我在阅读代码示例时没有任何问题,但由于我是C#开发人员,以我的母语使用其中一些想法会很有趣.我已经对网络进行了搜索,并且没有得到太多.在某种程度上这是个好消息,也许我可以将某些内容移植到.Net(建议欢迎),但我还想在我这样做之前先看一下现有的项目.
那么,是否有CI粉丝在.Net与OS项目一起工作,我是否错过了一些明显而有趣的书籍/网站/博客?
我意识到CI是一个相当广泛的领域,所以为了缩小它,我主要对聚类/预测/建议领域感兴趣,但我对其他想法持开放态度.
编辑:刚刚发现了Manning将要出版的这本书,这本书可能会让CI粉丝感兴趣:智能网的算法.
编辑澄清以回应穆斯的评论; 我正在寻找的是库,框架或大型项目(idealy OS),它们使用CI技术和.Net.代码示例很棒,但正如Moose在他的评论中所说的那样,将Java示例和移植它们很容易.例如,有一个用Java编写的有趣的项目称为WEKA,没有理由我不能使用它并进行实验,我只是想知道.Net中是否有类似的事情发生.我刚刚浏览了Lucene的信息,我发现有一个C#端口,所以这是一个开始......那里还有什么吗?
编辑这不是C#,但它是.Net; 罗伯特皮克林在这里开始收集F#CI资源.看起来很有趣,但我还在寻找C#信息.
我有兴趣做一些集体智慧编程,但想知道它是如何工作的?
据说它能够给出准确的预测:例如,O'Reilly编程集体智慧书中说,交易者行动的集合实际上可以比专家更好地预测未来的价格(如玉米).
现在我们在统计课上也知道,如果是40名学生参加考试的房间,将有3到5名学生获得"A"级.可能有8个获得"B",17个获得"C",依此类推.也就是说,基本上是钟形曲线.
因此,从这两个角度来看,"B"和"C"答案的集合如何比得到"A"的答案给出更好的预测?
请注意,例如,玉米价格是天气的准确价格因素,使用玉米的食品公司的需求等,而不是"自我实现的预言"(更多人购买玉米期货和价格上涨,更多的人购买期货再次).它实际上准确地预测供需,以便在未来给出准确的价格.
这怎么可能?
更新:我们可以说集体智慧不会对股市的兴奋和恐慌起作用吗?
我想确定两个新闻项目内容的相似性,类似于谷歌新闻,但在某种意义上我想要确定基本主题是什么,然后确定哪些主题相关.
因此,如果有一篇关于萨达姆侯赛因的文章,那么这个算法可能会推荐一些关于唐纳德拉姆斯菲尔德在伊拉克的商业交易.
如果你可以抛出像k-最近邻居这样的关键词,以及关于它们为什么起作用的一些解释(如果可以的话),我会做其余的研究并调整算法.只是寻找一个开始的地方,因为我知道有人在那里必须尝试过类似的东西.
我正在读Toby Segaran的一本名为"编程集体智慧"的好书(我强烈推荐)
代码示例都是用Python编写的,因为我今年已经学会了一种新语言(从VB.net毕业到C#),我并不热衷于跳上另一条学习曲线.
这留下了将python示例转换为C#的问题.
问题是:代码保留在python中有多重要?在python中有什么东西我不能用普通的托管静态类型语言做吗?
我正面临基于用户点击日志排序Solr结果的问题.我希望首先获得更多访问结果.有谁知道如何在Solr中配置或实现此类属性?
非常感谢你.
lucene search solr information-retrieval collective-intelligence
algorithm ×2
.net ×1
bayesian ×1
c# ×1
database ×1
lucene ×1
math ×1
probability ×1
python ×1
search ×1
semantic-web ×1
similarity ×1
solr ×1