小编Gab*_*cea的帖子

词汇量和嵌入量之间的首选比例是多少?

例如,当使用gensimword2vec或类似方法训练嵌入矢量时,我想知道嵌入尺寸与词汇量之间的最佳比例是多少?随着更多数据的到来,这又将如何变化?

正如我仍在讨论的主题,在训练嵌入矢量时,如何选择合适的窗口大小?

我之所以这样问是因为我不是在用真实的语言词典来训练我的网络,而是用句子来描述进程与文件以及其他进程之间的关系等等。例如,我的文本语料库中的一个句子如下所示:

smss.exe irp_mj_create systemdrive Windows system32 ntdll dll DesiredAccess:执行/遍历,同步,处置:打开,选项:,属性:不适用,ShareMode:读取,AllocationSize:不适用,OpenResult:已打开”

您可能会想到变体很多,但问题仍然在于,如何才能以最佳方式微调这些超参数,以使嵌入空间不会过度拟合,但每个单词都有足够有意义的特征。

谢谢,

加布里埃尔

machine-learning nltk keras word-embedding nltk-trainer

5
推荐指数
2
解决办法
2543
查看次数