如何将产品标题(非结构化)解析为结构化数据?

ste*_*spy 11 parsing nlp artificial-intelligence machine-learning e-commerce

我希望将"Canon D1000 4MP Camera 2X Zoom LCD"等非结构化产品解析为结构化数据{brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}.

到目前为止,我有:

  1. 删除了停用词并清理(删除字符- ; : /)
  2. 将长字符串标记为单词.

任何技术/库/方法/算法将非常感谢!

编辑:产品标题没有启发式.卖家可以输入任何标题.例如:'佳能D1000'可以作为标题.此外,此练习不仅适用于相机数据集,标题可以是任何产品.

Jir*_*rka 6

由于你有很多训练数据(我假设你有很多对标题+结构化json规范),我会尝试训练一个命名实体识别器.

例如,您可以训练斯坦福NER.请参阅此FAQ条目,说明如何执行此操作.显然,你必须摆弄参数,因为产品标题不完全是句子.

您需要准备培训数据,但这不应该那么难.您需要两个列,单词和答案,您可以添加标签列(但我不确定标准POS标签器的准确性是什么,因为它是非典型的文本).我只是从相关的json规范中提取答案列的值,会有一些歧义,但我认为它很少见,所以你可以忽略它.