我正在从头开始训练模型,以便根据文本预测食物。我已经标记了大约500个句子来训练我的模型,准确性非常好。但是,我有点担心看不见的真实世界的数据,所以我想出了一个有趣的想法。所以我想知道一些有经验的人对这个有趣的想法的想法。
因此,想法是将500个句子转换为大约10000个句子。为此,我首先用标记替换了实际实体,然后填充了可能的实体。示例如下:
原始训练句子:
- “特易购去年售出了五万个比萨饼。” ---食物=比萨饼
- “他一个人时喜欢吃布丁。” ---食物=布丁通用句:
- “乐购去年卖了五万。”
- “他一个人时喜欢吃东西。”
食物清单:
- 比萨
- 布丁
新生成的训练语句:
- “特易购去年售出了五万个比萨饼。” ---食物=比萨饼
- “乐购去年卖了五万布丁。” ---食品=布丁
- “他一个人时喜欢吃披萨。” -食物=披萨
- “他一个人时喜欢吃布丁。” -食物=布丁
因此生成这样的训练语句是否很好?我认为的好处:
- 更多句子。
- 单个实体将有更多示例,而不是一两个。
- 可能是高精度。
问题可能是:
谢谢,请让我知道这种方法的想法。