Cyb*_*ent 5 regex nlp classification machine-learning data-extraction
我非常感谢您对以下问题的最佳方法的看法.我正在使用汽车分类列表示例,其性质类似于给出一个想法.
问题:从给定文本中提取数据元组.
以下是数据的一些特征.
文本中的词汇(单词)仅限于特定领域.让我们假设最多100-200个单词.
需要解析的文本是标题,如下面显示的汽车广告数据.所以每条记录对应一个元组(行).
在某些情况下,某些属性可能会丢失.因此,例如,在原始数据行#5中,缺少年份.
有些词汇(bigrams).喜欢"低里程".
可用的历史数据= 10,000条记录
传入的新数据量=每周1000-1500条记录
预期输出应采用(年,制,模型,特征)的形式.所以输出应该是这样的
1 - >(2009,Ford,Fusion,SE)
2 - >(1997,Ford,Taurus,Wagon)
3 - >(2000,Mitsubishi,Mirage,DE)
4 - >(2007,Ford,Expedition,EL Limited)
5 - >(,本田雅阁,EX)
....
....
原始标题数据:
1 - > 2009福特Fusion SE - 7000美元
2 - > 1997福特金牛座旅行车 - 800美元(圣东方)
3 - > '00三菱海市蜃楼DE - 2499美元(saratoga)图片
4 - > 2007福特Expedition EL限量版 - $ 7800(x)
5 - > Honda Accord ex low miles - $ 2800(dublin/pleasanton/livermore)pic
6 - > 2004 HONDA ODASSEY LX 68K MILES - $ 10800(danville/san ramon)
7 - > 93 LINCOLN MARK - $ 2000(oakland east)pic
8 - > ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI ####### - $ 19700(san rafael)pic
9 - > 2004 Audi A4 1.8T FWD - $ 8900(Sacramento)pic
10 - > ## ##### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### - $ 10575(san rafael)图片
11 - > 1990 Toyota Corolla RUNS GOOD!省气!5SPEED清洁!REG 2011 OBO - $ 1600(海沃德/卡斯特罗山谷)pic img
12 - > HONDA ACCORD EX 2000 - $ 4900(都柏林/ enjoyon/livermore)图
13 - > 2009 Chevy Silverado LT船员驾驶室 - $ 23900(都柏林/ enjoyon/livermore)图
14 - > 2010 Acura TSX - V6 - TECH - $ 29900(都柏林/ enjoyon/livermore)图片
15 - > 2003日产Altima - $ 1830(SF)pic
可能的选择:
我想弄清楚的是,如果RegEx对于作业而言过于复杂而且Text分类器是否过度杀伤?
如果选择使用文本分类器,那么您认为最容易实现的是什么.
在此先感谢您的帮助.