use*_*248 6 python-3.x deep-learning tensorflow oversampling
如何在 LSTM 中的词嵌入层之前应用 SMOTE 算法。
我有一个文本二进制分类问题(Good(9500) 或 Bad(500) 评论,总共有 10000 个训练样本,它是不平衡的训练样本),意思是当我使用 LSTM 和预训练的词嵌入(100 维空间用于每个单词)也是如此,所以每个训练输入都有一个单词词典的 id(当文本描述少于 50 个单词时,总共 50 个 id 填充为零,当描述超过 50 个字符时,修剪为 50)。
下面是我的一般流程,
我只想在 SMOTE 的帮助下生成更多数据以进行差评