小编Gab*_*cea的帖子

例如，当使用gensim，word2vec或类似方法训练嵌入矢量时，我想知道嵌入尺寸与词汇量之间的最佳比例是多少？随着更多数据的到来，这又将如何变化？

正如我仍在讨论的主题，在训练嵌入矢量时，如何选择合适的窗口大小？

我之所以这样问是因为我不是在用真实的语言词典来训练我的网络，而是用句子来描述进程与文件以及其他进程之间的关系等等。例如，我的文本语料库中的一个句子如下所示：

smss.exe irp_mj_create systemdrive Windows system32 ntdll dll DesiredAccess：执行/遍历，同步，处置：打开，选项：，属性：不适用，ShareMode：读取，AllocationSize：不适用，OpenResult：已打开”

您可能会想到变体很多，但问题仍然在于，如何才能以最佳方式微调这些超参数，以使嵌入空间不会过度拟合，但每个单词都有足够有意义的特征。

谢谢，

加布里埃尔

5
推荐指数

2
解决办法

2543
查看次数

小编Gab_cea的帖子