小编wak*_*obu的帖子

如何为Seq2Seq模型提供多个目标?

我正在对MSR-VTT数据集进行视频字幕。

在此数据集中,我有10,000个视频,每个视频有20个不同的字幕

我的模型由seq2seq RNN组成。编码器的输入是视频功能,解码器的输入是嵌入式目标字幕,解码器的输出是预测字幕。

我想知道使用几次相同标题不同标题的视频是否有用。


由于我找不到明确的信息,因此尝试对其进行基准测试

基准测试:

模型1:每个视频一个字幕

我在1108个运动视频中对其进行了训练,批量大小为5,超过60个时期。此配置每个时期大约需要211秒。

Epoch 1/60 ; Batch loss: 5.185806 ; Batch accuracy: 14.67% ; Test accuracy: 17.64%
Epoch 2/60 ; Batch loss: 4.453338 ; Batch accuracy: 18.51% ; Test accuracy: 20.15%
Epoch 3/60 ; Batch loss: 3.992785 ; Batch accuracy: 21.82% ; Test accuracy: 54.74%
...
Epoch 10/60 ; Batch loss: 2.388662 ; Batch accuracy: 59.83% ; Test accuracy: 58.30%
...
Epoch 20/60 ; Batch loss: 1.228056 ; Batch accuracy: 69.62% ; …
Run Code Online (Sandbox Code Playgroud)

python deep-learning tensorflow recurrent-neural-network

6
推荐指数
1
解决办法
137
查看次数