帮助:从文本中提取数据元组...正则表达式或机器学习？

Question

帮助:从文本中提取数据元组...正则表达式或机器学习？

Cyb*_*ent 5 regex nlp classification machine-learning data-extraction

我非常感谢您对以下问题的最佳方法的看法.我正在使用汽车分类列表示例,其性质类似于给出一个想法.

问题:从给定文本中提取数据元组.

以下是数据的一些特征.

文本中的词汇(单词)仅限于特定领域.让我们假设最多100-200个单词.
需要解析的文本是标题,如下面显示的汽车广告数据.所以每条记录对应一个元组(行).
在某些情况下,某些属性可能会丢失.因此,例如,在原始数据行#5中,缺少年份.
有些词汇(bigrams).喜欢"低里程".
可用的历史数据= 10,000条记录
传入的新数据量=每周1000-1500条记录

预期输出应采用(年,制,模型,特征)的形式.所以输出应该是这样的

1 - >(2009,Ford,Fusion,SE)
2 - >(1997,Ford,Taurus,Wagon)
3 - >(2000,Mitsubishi,Mirage,DE)
4 - >(2007,Ford,Expedition,EL Limited)
5 - >(,本田雅阁,EX)
....
....

原始标题数据:

1 - > 2009福特Fusion SE - 7000美元
2 - > 1997福特金牛座旅行车 - 800美元(圣东方)
3 - > '00三菱海市蜃楼DE - 2499美元(saratoga)图片
4 - > 2007福特Expedition EL限量版 - $ 7800(x)
5 - > Honda Accord ex low miles - $ 2800(dublin/pleasanton/livermore)pic
6 - > 2004 HONDA ODASSEY LX 68K MILES - $ 10800(danville/san ramon)
7 - > 93 LINCOLN MARK - $ 2000(oakland east)pic
8 - > ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI ####### - $ 19700(san rafael)pic
9 - > 2004 Audi A4 1.8T FWD - $ 8900(Sacramento)pic
10 - > ## ##### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### - $ 10575(san rafael)图片
11 - > 1990 Toyota Corolla RUNS GOOD!省气!5SPEED清洁!REG 2011 OBO - $ 1600(海沃德/卡斯特罗山谷)pic img
12 - > HONDA ACCORD EX 2000 - $ 4900(都柏林/ enjoyon/livermore)图
13 - > 2009 Chevy Silverado LT船员驾驶室 - $ 23900(都柏林/ enjoyon/livermore)图
14 - > 2010 Acura TSX - V6 - TECH - $ 29900(都柏林/ enjoyon/livermore)图片
15 - > 2003日产Altima - $ 1830(SF)pic

可能的选择:

机器学习文本分类器(朴素贝叶斯等)
正则表达式

我想弄清楚的是,如果RegEx对于作业而言过于复杂而且Text分类器是否过度杀伤？

如果选择使用文本分类器,那么您认为最容易实现的是什么.

在此先感谢您的帮助.

Answer 1

car*_*sdc 5

这是一个被充分研究的问题,称为信息提取.做你想做的事情并不是直截了当的,并不像你说的那么简单(即机器学习不是一种矫枉过正的行为).有几种技术,您应该阅读研究领域的概述.

归档时间：	14 年，6 月前
查看次数：	2694 次
最近记录：	10 年，4 月前