我正在评估基于生产ML的应用程序的工具,我们的一个选项是Spark MLlib,但是我对如何在训练后提供模型服务有一些疑问?
例如,在Azure ML中,一旦经过培训,该模型将作为Web服务公开,可以从任何应用程序中使用,这与Amazon ML类似.
您如何在Apache Spark中提供/部署ML模型?
我想用一个相邻列中的值替换一列中的空值,例如,如果我有
A|B
0,1
2,null
3,null
4,2
Run Code Online (Sandbox Code Playgroud)
我希望它是:
A|B
0,1
2,2
3,3
4,2
Run Code Online (Sandbox Code Playgroud)
试过
df.na.fill(df.A,"B")
Run Code Online (Sandbox Code Playgroud)
但是没有用,它说值应该是float,int,long,string或dict
有任何想法吗?
我正在尝试获取在表中执行插入的最后日期(亚马逊redshift),有没有办法使用元数据来执行此操作?这些表不存储任何时间戳列,即使它们具有时间戳列,我们也需要找出3k表,因此这是不切实际的,因此元数据接近其策略。有小费吗 ?
我正在将当前的DataBricks Spark笔记本迁移到Jupyter笔记本,DataBricks提供了方便,美观的display(data_frame)功能以可视化Spark数据帧和RDD,但是Jupyter没有直接等效的功能(我不确定,但我认为它是DataBricks的特定功能),我尝试过:
dataframe.show()
Run Code Online (Sandbox Code Playgroud)
但这是它的文本版本,当您有很多列中断时,因此,我试图找到一种比display()更好的呈现Spark数据帧的方法,而不是show()函数。是否有与此等效或替代的方法?
我正在开发一个项目,其中模型需要访问我在类的构造函数init中声明的张量(我对 torch.nn.Module 类进行了子类),然后我需要在 forward() 中使用这个张量通过简单的 matmul() 方法,模型通过 cuda() 调用发送到 GPU:
model = Model()
model.cuda()
Run Code Online (Sandbox Code Playgroud)
但是,当我通过以下方式对简单输入 X 进行前向传播时:
model(X) # or model.forward(X)
Run Code Online (Sandbox Code Playgroud)
我得到
RuntimeError: 类型为 torch.cuda.FloatTensor 的预期对象,但为参数 #2 'mat2' 找到类型 torch.FloatTensor
表示 matmul 的第二个参数(我声明的实例张量)在 CPU 上,并且在 GPU 上是预期的(作为模型和数据的其余部分)。
在 matmul 中,张量通过 matrix.t() 转置
我什至尝试通过覆盖 cuda() 方法:
def cuda(self):
super().cuda()
self.matrix.cuda()
Run Code Online (Sandbox Code Playgroud)
数据已经在 GPU 中,这意味着已经执行了以下代码行:
X = X.cuda()
Run Code Online (Sandbox Code Playgroud)
错误还明确指出 matmul 的参数 2,在这种情况下,它是张量(称为矩阵)而不是 X。
如果您键入以下内容,我需要以编程方式获取不依赖于目录列表和文件扩展名验证的现有检查点列表:
tf.train.get_checkpoint_state('checkpoints')
Run Code Online (Sandbox Code Playgroud)
你可以看到打印的这个列表,但我找不到一种方法来捕获这个打印的列表,以便以后可以迭代,有什么办法可以做到这一点?