任何人都在使用Nvidia Tegra X1进行张量流动?
我发现一些消息来源表明它可能存在于TK1上,或者TX1上存在严重的黑客攻击/错误,但还没有确定的配方.
我正在使用Jetson 2.3安装但尚未使用它 - 任何提示最受欢迎.
是否有充分了解何时使用辍学与简单获取更多数据的指导原则?我之前已经理解,如果有足够的数据,就不会想要使用dropout.然而,我最近有一个模型(4层LSTM处理音频输入),无论我提供多少数据,都会凭经验收敛到一定的损失 - 然后在我添加丢失时显着改善.
这种现象很好理解吗?那么,即使有更多(可能是无限的)数据可用,总是会使用dropout吗?
后续行动:如果是这样,我在RL论文中没有多少提及辍学.我认为这是因为有无限的可生成数据.这里是否有其他细微差别可以考虑探讨的状态空间的分数,或者可用的训练数据的异质性等?