虽然这个问题的答案非常好,但我想知道我是否可以利用所有时间来了解SOLR以获得我的NLP.
我想到了SOLR,因为:
虽然上述原因很好,但我不太了解SOLR,所以我需要知道它是否适合我的要求.
理想情况下,我想配置SOLR,然后能够发送SOLR一些文本,并检索索引的tonkenized内容.
我正在研究一个更大的推荐引擎的一个小组件.
我正在构建一个推荐系统,我使用Firebase存储和检索有关电影和用户首选项的数据.
每部电影都有几个属性,数据如下:
{
"titanic":
{"1997": 1, "english": 1, "dicaprio": 1, "romance": 1, "drama": 1 },
"inception":
{ "2010": 1, "english": 1, "dicaprio": 1, "adventure": 1, "scifi": 1}
...
}
Run Code Online (Sandbox Code Playgroud)
为了提出建议,我的算法需要输入所有数据(电影)并与用户配置文件进行匹配.
但是,在生产模式中,我需要检索超过10,000部电影.虽然算法可以相对快速地处理这个问题,但是从Firebase加载这些数据需要花费大量时间.
我检索数据如下:
firebase.database().ref(moviesRef).on('value', function(snapshot) {
// snapshot.val();
}, function(error){
console.log(error)
});
Run Code Online (Sandbox Code Playgroud)
我想知道你是否对如何加快速度有任何想法?是否有任何已知的插件或技术可以解决这个问题?
我知道非规范化可以帮助分割数据,但问题是我需要所有电影和所有相应的属性.
database-design recommendation-engine nosql firebase firebase-realtime-database
我正在尝试从Google Analytics收集信息,以便为我的网站构建推荐引擎.该网站包含许多网页,因此我会跟踪用户点击的次数,例如,从第A页到第B页.目前我可以A -> B使用previousPagePath = '/A'和测量Google Analytics上的转换nextPagePath = '/B',但问题我真的想回答是,"在包括查看页面A的网站的所有访问中,在同一次访问中查看的页面B,C,...的次数是多少?"
例如,如果流程是A -> homepage -> B,那么我当前的方法不会捕获,但会被更广泛的衡量标准捕获.看起来Google Analytics网络界面上的"访客流"报告中包含我正在寻找的数据,但我无法弄清楚如何通过API以编程方式访问它.
获取此数据的最佳方法是什么?
我正在构建一个基于内容的电影推荐系统.这很简单,只需让用户输入电影标题,系统就会找到一部具有最相似功能的电影.
在计算相似度并按降序对分数进行排序后,我找到相应的5个最高相似度得分的电影并返回给用户.
到目前为止,当我想评估系统的准确性时,一切运作良好.我在Google上找到的一些公式只是根据评级值评估准确性(比较预测评级和实际评级,如RMSE).我没有将相似性得分改为评级(从1到5的比例),所以我不能应用任何公式.
您能否建议将相似度得分转换为预测评级,以便我可以应用RMSE?或者有什么想法解决这个问题?
我想在Ruby on Rails上的项目中使用Apache Mahout来实现建议和协作过滤.特别是我的要求是:
如果它可以轻松地与rails集成并满足我的要求,我愿意使用任何其他解决方案(除了mahout).
recommendation-engine ruby-on-rails ruby-on-rails-plugins mahout
如何为推荐引擎设计神经网络.我假设每个用户都需要自己的网络,但是如何设计用于在数据库中推荐项目的输入和输出.是否有任何好的教程或什么?
编辑:我更想的是如何设计网络.与输入神经元的数量以及输出神经元如何指向数据库中的记录一样.你会说6个输出神经元,将它转换成一个整数(从0到63可以是任何东西),这是数据库中记录的ID吗?是人们这样做的吗?
artificial-intelligence recommendation-engine neural-network
我正在寻找一个基本的推荐引擎,它将获取并存储一个数字ID列表(与书籍相关),将这些ID与具有大量相同ID的其他用户进行比较,并根据这些查找推荐其他书籍.
经过一段谷歌搜索,我发现这篇文章讨论了Slope One算法的实现,但似乎依赖于用户评价被比较的项目.理想情况下,我希望在不需要用户提供评级的情况下实现这一目标.我假设如果用户在他们的收藏中有这本书,他们会喜欢它.
虽然我觉得我可以默认每本书的评级为10,但我想知道我是否可以使用更高效的算法.理想情况下,我想动态计算这些建议(避免批量计算).任何建议,将不胜感激.
(我承认我不是图形数据库或NoSQL的专家,到目前为止只用于一些业余爱好项目.)
我一直在使用像InfiniteGraph和Stig这样的技术来推荐 - 这些图形数据库据说可以针对这样的任务进行优化.看起来新的Google Predictions API能够实现相同的目的 - 给定数据集和用户的实际喜欢作为子集,能够预测用户可能真正喜欢的内容.
是否有可靠的指标来比较Google Predictions与其他基于图形的数据库?
google-analytics recommendation-engine graph-databases google-prediction
我想知道是否有可用的开源推荐引擎?它应该建议亚马逊和Netflix之类的东西.我听说过一个名为Apache Mahout - Taste的框架.我下周试试.如果你能分享你宝贵的想法,那将是很棒的.
我想使用Spark的mllib.recommendation库来构建原型推荐系统.但是,我所拥有的用户数据的格式是以下格式:
AB123XY45678
CD234WZ12345
EF345OOO1234
GH456XY98765
....
Run Code Online (Sandbox Code Playgroud)
如果我想使用该mllib.recommendation库,根据Rating类的API ,用户ID必须是整数(也必须是连续的?)
看起来真实用户ID和Spark使用的数字之间必须进行某种转换.但是我该怎么做呢?