标签: data-science

在对社交网络新闻Feed项目进行排名时结合启发式方法

我们有新闻Feed,我们希望根据多个条件向用户展示项目.某些项目将由于因子A而浮出水面,另一项因为因子B而浮出水面,而另一项因为因子C而浮出水面.我们可以为每个因素创建单独的启发式方法,但我们需要将这些启发式方法结合起来以促进最佳考虑每个因素的内容,同时仍然给出每个因素的混合内容.

我们天真的方法是n从每个因子加载顶部,取每个因子中的第一个,并将它们作为饲料的前3个.然后从每个Feed中取第2个,然后在第3个中取出,依此类推.理想情况下,我们会有一些算法可以更智能地对这些Feed项进行排名 - 我们首先考虑的是简单地将三种启发式算法相加并使用得到的组合得分来拉出顶部项目,但不能保证启发式算法是均匀缩放的(或者对于特定用户而言是均匀缩放的,这可能导致一个因素占据馈送中的其他因素.是否有更智能的方式对这些新闻Feed项目进行排名(类似于Facebook在其伪时间顺序新闻Feed中的作用)?

artificial-intelligence machine-learning ranking data-science

10
推荐指数
2
解决办法
299
查看次数

为什么 pandas.DataFrame.sum(axis=0) 返回每列中的值的总和,其中 axis =0 代表行?

在pandas中,axis=0代表行axis=1代表列。因此,要获取 pandas 中每行值的总和,请调用 df.sum(axis=0) 。但它返回每列中的值的总和,反之亦然。为什么???

import pandas as pd
df=pd.DataFrame({"x":[1,2,3,4,5],"y":[2,4,6,8,10]})
df.sum(axis=0)
Run Code Online (Sandbox Code Playgroud)

数据框:

   x   y
0  1   2

1  2   4

2  3   6

3  4   8

4  5  10
Run Code Online (Sandbox Code Playgroud)

输出:

x    15

y    30
Run Code Online (Sandbox Code Playgroud)

预期输出:

0     3

1     6

2     9

3    12

4    15
Run Code Online (Sandbox Code Playgroud)

python data-analysis pandas data-science

10
推荐指数
1
解决办法
1万
查看次数

如何在网站中嵌入 LIVE Colab Notebook?

我想建立一个网站并将其部署到github页面或heroku。我的问题是:是否可以在我将托管的网站中嵌入 LIVE(我可以运行代码)Google Colab 笔记本?

我想要这个嵌入式 Colab 笔记本来执行 Spark 代码!!

谢谢!

embed deployment web apache-spark data-science

10
推荐指数
1
解决办法
8946
查看次数

Databricks 和 Spark 有什么区别?

我试图清楚地了解它们是如何相互关联的,以及使用其中一个是否总是需要使用另一个。如果您可以对它们中的每一个给出非技术性的定义或解释,我将不胜感激。请不要粘贴两者的技术定义。我不是软件工程师、数据分析师或数据工程师。

database apache-spark data-science azure-databricks

10
推荐指数
1
解决办法
7474
查看次数

如何使用pygal(python)在一个图表中绘制多个图形?

我正在尝试使用两个测量来绘制多个系列(所以它实际上是使用pygal在一个图中的num_of_个时间序列*2个图.数据看起来应该是这样的:

from collections import defaultdict

measurement_1=defaultdict(None,[
  ("component1", [11.83, 11.35, 0.55]), 
  ("component2", [2.19, 2.42, 0.96]),
  ("component3", [1.98, 2.17, 0.17])])

measurement_2=defaultdict(None,[
  ("component1", [34940.57, 35260.41, 370.45]),
  ("component2", [1360.67, 1369.58, 2.69]),
  ("component3", [13355.60, 14790.81, 55.63])])

x_labels=['2016-12-01', '2016-12-02', '2016-12-03']
Run Code Online (Sandbox Code Playgroud)

图形呈现代码是:

from pygal import graph
import pygal
def draw(measurement_1, measurement_2 ,x_labels):
  graph = pygal.Line()
  graph.x_labels = x_labels

  for key, value in measurement_1.iteritems():
      graph.add(key, value)
  for key, value in measurement_2.iteritems():
      graph.add(key, value, secondary=True)

  return graph.render_data_uri()
Run Code Online (Sandbox Code Playgroud)

当前结果是.

上面代码中的问题是,不清楚哪个图表属于测量1,哪个图表属于测量2.其次,我希望在两个测量中看到颜色(或形状)中的每个成分(现在看起来像他们根本没有关系.例如component1 -pink,component2-green,component3-yellow

该图旨在比较一个组件与另外两个组件,并查看测量1和2之间的相关性.

我希望我很清楚.

谢谢你的帮助!

python charts python-2.7 pygal data-science

9
推荐指数
1
解决办法
871
查看次数

R的浏览器()等效于Python

标题说明了一切.当您正在工作R和使用时RStudio,通过browser()在代码中的任何位置删除调用并查看出错的内容,可以非常轻松地调试某些内容.有没有办法用Python做到这一点?我慢慢厌倦了print语句调试.

python debugging r data-science

9
推荐指数
2
解决办法
1485
查看次数

当使用不同长度和多个特征的多个时间序列时,如何为LSTM准备数据?

我有一些来自多个用户(nUsers)的数据集.每个用户随机抽样(每个用户的非常数nSamples).每个样本都有许多功能(nFeatures).例如:

nUsers = 3 ---> 3个用户

nSamples = [32,52,21] --->第一个用户被采样32次第二个用户被采样52次等.

nFeatures = 10 --->每个样本的特征数量恒定.

我希望LSTM基于当前特征和同一用户的先前预测产生当前预测.我可以使用LSTM层在Keras中做到这一点吗?我有两个问题:1.每个用户的数据都有不同的时间序列.我该怎么办呢?2.如何处理将先前的预测添加到当前时间特征空间以进行当前预测?

谢谢你的帮助!

python lstm keras data-science

9
推荐指数
1
解决办法
3904
查看次数

Kubernetes 可以在工作流中将分析作业链接在一起吗?

阅读 Kubernetes “Run to Completion”文档,它说作业可以并行运行,但是否可以将一系列应按顺序(并行和/或非并行)运行的作业链接在一起。

https://kubernetes.io/docs/concepts/workloads/controllers/jobs-run-to-completion/


还是由用户使用 PubSub 消息服务跟踪哪些作业已完成并触发下一个作业?

workflow jobs pipeline kubernetes data-science

9
推荐指数
2
解决办法
3094
查看次数

在 scikit learn 中实现自定义损失函数

我想在 scikit learn 中实现自定义损失函数。我使用以下代码片段:

def my_custom_loss_func(y_true,y_pred):
   diff3=max((abs(y_true-y_pred))*y_true)
   return diff3

score=make_scorer(my_custom_loss_func,greater_ is_better=False)
clf=RandomForestRegressor()
mnn= GridSearchCV(clf,score)
knn = mnn.fit(feam,labm) 
Run Code Online (Sandbox Code Playgroud)

传入的参数应该是什么my_custom_loss_func?我的标签矩阵称为labm. 我想计算实际输出和预测输出(通过模型)乘以真实输出之间的差异。如果我用labm代替y_true,我应该用什么代替y_pred

python machine-learning scikit-learn data-science gridsearchcv

9
推荐指数
2
解决办法
1万
查看次数

没有评级的推荐引擎

我在 Towards Data Science/medium/ 等方面发现了数十篇关于使用 imdb 数据制作推荐引擎的文章(基于用户对电影的评分,我们应该向这些用户推荐哪些电影)。这些文章从基于用户的内容过滤和基于项目的内容过滤的“基于内存的方法”开始。我的任务是制作一个推荐引擎,由于没有一个套装真正关心或了解这一点,我想做最低限度的工作(这似乎是基于用户的内容过滤)。

问题是,我所有的数据都是二元的(没有评分,只是根据其他用户购买的物品,我们是否应该向类似用户推荐物品-这实际上类似于所有媒体文章都从彼此那里窃取的漫画,但是没有一篇中等文章给出了如何做到这一点的例子)。

所有文章都使用 Pearson Correlation 或余弦相似度来确定用户相似度,我可以将这些方法用于二进制维度(购买与否),如果可以,如何,如果不是,是否有不同的方法来衡量用户相似度?

我正在使用 python 顺便说一句。我在想也许使用汉明距离(有没有不好的原因)

recommendation-engine machine-learning data-science

9
推荐指数
1
解决办法
3483
查看次数