小编Abh*_*wal的帖子

Spacy:生成通用句子,然后在其上训练模型。这是个好主意吗?

我正在从头开始训练模型,以便根据文本预测食物。我已经标记了大约500个句子来训练我的模型,准确性非常好。但是,我有点担心看不见的真实世界的数据,所以我想出了一个有趣的想法。所以我想知道一些有经验的人对这个有趣的想法的想法。

因此,想法是将500个句子转换为大约10000个句子。为此,我首先用标记替换了实际实体,然后填充了可能的实体。示例如下:

原始训练句子:

  1. “特易购去年售出了五万个比萨饼。” ---食物=比萨饼
  2. “他一个人时喜欢吃布丁。” ---食物=布丁通用句:
  3. “乐购去年卖了五万。”
  4. “他一个人时喜欢吃东西。”

食物清单:

  1. 比萨
  2. 布丁

新生成的训练语句:

  1. “特易购去年售出了五万个比萨饼。” ---食物=比萨饼
  2. “乐购去年卖了五万布丁。” ---食品=布丁
  3. “他一个人时喜欢吃披萨。” -食物=披萨
  4. “他一个人时喜欢吃布丁。” -食物=布丁

因此生成这样的训练语句是否很好?我认为的好处:

  1. 更多句子。
  2. 单个实体将有更多示例,而不是一两个。
  3. 可能是高精度。

问题可能是:

  • 训练数据充满相似的句型。

谢谢,请让我知道这种方法的想法。

entity nlp named-entity-extraction spacy

0
推荐指数
1
解决办法
48
查看次数

标签 统计

entity ×1

named-entity-extraction ×1

nlp ×1

spacy ×1