我使用Python作为OOP相当新.我来自Java背景.你会如何在python中编写一个javabean等价物?基本上,我需要一个类:
有什么投入?我正在寻找示例代码!
我希望将"Canon D1000 4MP Camera 2X Zoom LCD"等非结构化产品解析为结构化数据{brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}.
到目前为止,我有:
- ; : /)任何技术/库/方法/算法将非常感谢!
编辑:产品标题没有启发式.卖家可以输入任何标题.例如:'佳能D1000'可以作为标题.此外,此练习不仅适用于相机数据集,标题可以是任何产品.
parsing nlp artificial-intelligence machine-learning e-commerce
我正在尝试实现一个未经过排名的布尔检索.为此,我需要构造一个树并执行DFS来检索文档.我有叶节点,但我很难构建树.
例如:query = OR(AND(玛丽亚莎拉波娃)网球)
结果:
OR
| |
AND tennis
| |
maria sharapova
我使用DFS遍历树并计算某些文档ID的布尔等价物,以从语料库中识别所需的文档.有人可以用python帮助我设计这个吗?我已解析查询并立即检索叶节点.
编辑:我是新来的,所以道歉是因为缺乏清晰度.我基本上试图建立一个非常天真的搜索引擎.因此,用户输入任何布尔查询,如:OR(AND(maria sharapova)tennis).我有一个维基百科文档集,根据您输入的查询显示给用户.
直到现在,我已经解析了查询以检索单个运算符(如OR,AND等).而且,个人搜索条件(玛丽亚,网球等).解析代码只是一个基本上将所有运算符和查询项组合为类型的函数.即(玛丽亚莎拉波娃),(网球),或,和.我以这种方式解析这个函数,以便自下而上创建一个树.现在,使用倒置列表作为网球,玛丽亚,莎拉波娃等相应的关键词,我使用倒排列表执行布尔运算,得到一定的"文档化".然后将此文档传递给API,然后API将检索正确的维基百科页面.
为了更详细地解释这个主题,请参阅本文档以获取有关我手头问题的更多信息:http: //www.ccs.neu.edu/home/jaa/CSG339.06F/Lectures/boolean.pdf
python algorithm information-retrieval search-engine booleanquery