例如,当使用gensim,word2vec或类似方法训练嵌入矢量时,我想知道嵌入尺寸与词汇量之间的最佳比例是多少?随着更多数据的到来,这又将如何变化?
正如我仍在讨论的主题,在训练嵌入矢量时,如何选择合适的窗口大小?
我之所以这样问是因为我不是在用真实的语言词典来训练我的网络,而是用句子来描述进程与文件以及其他进程之间的关系等等。例如,我的文本语料库中的一个句子如下所示:
smss.exe irp_mj_create systemdrive Windows system32 ntdll dll DesiredAccess:执行/遍历,同步,处置:打开,选项:,属性:不适用,ShareMode:读取,AllocationSize:不适用,OpenResult:已打开”
您可能会想到变体很多,但问题仍然在于,如何才能以最佳方式微调这些超参数,以使嵌入空间不会过度拟合,但每个单词都有足够有意义的特征。
谢谢,
加布里埃尔