在iOS电子邮件客户端中,当电子邮件包含日期,时间或位置时,文本将成为超链接,只需点击链接即可创建约会或查看地图.它不仅适用于英语电子邮件,也适用于其他语言.我喜欢这个功能,想了解他们是如何做到的.
这样做的天真方法是拥有许多正则表达式并运行它们.但是我不能很好地扩展它并且只适用于特定的语言或日期格式等.我认为Apple必须使用一些机器学习的概念来提取实体(晚上8点,晚上8点,8点, 0800,20:00,20h,20h00,2000等).
知道Apple如何能够在其电子邮件客户端中如此快速地提取实体?您将应用什么机器学习算法来完成这样的任务?
nlp machine-learning named-entity-recognition information-extraction
我正在寻找一个PDF库,它允许我从PDF文档中提取文本.我看过PyPDF,这可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取.这可能会有问题,因为它会产生一些无效且看起来乱码的文本部分(例如,大量数字混在一起).
我正在寻找更高级的东西.我想从PDF文档中提取文本,不包括任何表格和特殊格式.那里有图书馆吗?或者我被迫对输出文本进行一些后处理以摆脱这些部分?
我是文本挖掘的新手.我正在使用一个开源jar(Mate Parser),它在依赖解析后以CoNLL 2009格式给出输出.我想使用依赖解析结果进行信息提取.但我能够理解一些输出但不能理解CoNLL数据格式.任何人都可以帮助我理解CoNLL数据格式吗?任何类型的指针将不胜感激.
我正在使用将我的GTIN/EAN查询映射到产品数据的API.
由于返回的数据来自商家产品供稿,因此几乎普遍存在以下情况:
我正在寻找一种程序化方式
请考虑以下单个EAN查询的示例结果:
我的自制方法看起来像这样:
word => global occurence
"Nivea" => 7"Deo" => 5"Deoroller" => 2…"VE" => 1"Nivea Deo" => 12"Nivea Deoroller VE" => 10 …我需要一个可以处理常见媒体格式的媒体信息提取库(纯Java或JNI包装器).我主要将它用于视频文件,我至少需要这些信息:
有几个库和工具,但我找不到Java.
我是一名护士,我知道python,但我不是专家,只是用它来处理DNA序列
我们得到了用人类语言编写的医院记录,我应该将这些数据插入数据库或csv文件,但它们超过5000线条,这可能是如此困难.所有数据都以一致的格式编写,让我给大家展示一个例子
11/11/2010 - 09:00am : He got nausea, vomiting and died 4 hours later
Run Code Online (Sandbox Code Playgroud)
我应该得到以下数据
Sex: Male
Symptoms: Nausea
Vomiting
Death: True
Death Time: 11/11/2010 - 01:00pm
Run Code Online (Sandbox Code Playgroud)
另一个例子
11/11/2010 - 09:00am : She got heart burn, vomiting of blood and died 1 hours later in the operation room
Run Code Online (Sandbox Code Playgroud)
我明白了
Sex: Female
Symptoms: Heart burn
Vomiting of blood
Death: True
Death Time: 11/11/2010 - 10:00am
Run Code Online (Sandbox Code Playgroud)
当我说.......所以in是一个关键词并且之后的所有文本都是一个地方,直到我找到另一个关键词
在开始他或她确定性,得到..... 时,顺序不一致...无论后面是一组症状,我应该根据分隔符分开,可以是逗号,夸张或其他什么,但它是一致的同一条线
死了.....小时后也应该得到多少小时,有时患者仍然活着并且已经出院......等等
我说我们有很多约定,我想如果我能用关键字和模式对文本进行标记,我可以完成工作.所以,如果你知道一个有用的函数/模块/教程/工具,最好在python(如果不是python,所以一个gui工具会很好)
一些信息:
there are a lot of rules to express various …Run Code Online (Sandbox Code Playgroud) 我试图在动词对之间实现关系提取.我想使用从一个动词到另一个动词的依赖路径作为我的分类器的一个特征(预测关系X是否存在).但我不确定如何将依赖路径编码为一个功能.以下是一些示例依赖路径,作为与StanfordCoreNLP Collapsed Dependencies的空格分隔关系注释:
nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of
Run Code Online (Sandbox Code Playgroud)
重要的是要记住,这些路径长度可变,并且可以不受任何限制地重新出现这种关系.
我想到的两种对这种功能进行编码的折衷方法是:
1)忽略序列,每个关系只有一个特征,其值是它在路径中出现的次数
2)具有长度为n的滑动窗口,并且对于每个可能的关系对具有一个特征,其值是这两个关系连续出现的次数.我想这是编码n-gram的方式.但是,可能关系的数量是50,这意味着我不能真正采用这种方法.
欢迎任何建议.
nlp machine-learning feature-extraction information-extraction stanford-nlp
我正在编写一个python脚本,从几个国家和语言的数千篇新闻文章的集合中提取"实体名称".
我想利用令人惊叹的DBPedia结构化knwoledge,例如查找"埃及艺术家"的名字和"加拿大公司"的名称.
(如果这些信息是SQL形式的,我就没有问题了.)
我更愿意下载DBPedia内容并离线使用它.有什么需要这样做的想法以及如何从python本地查询?
它看起来很容易.但我很困惑.
文本挖掘和信息提取有什么区别?
nlp information-retrieval text-mining information-extraction
我希望有人可以指出我正确的方向来学习从一堆文本中分离出行动.
假设我有这个文本
Drop off the dry cleaning, and go to the corner store and pick-up a jug of milk and get a pint of strawberries. Then, go pick up the kids from school. First, get John who is in the daycare next to the library, and then get Sam who is two blocks away. By the time you've got the kids, you'll need to stop by the doctors office for the perscription. Tim's flight arrives at 4pm. It's American Airlines …
nlp machine-learning information-extraction pos-tagger sentence
nlp ×7
python ×3
text-mining ×3
parsing ×2
dbpedia ×1
java ×1
media ×1
mysql ×1
pdf ×1
php ×1
pos-tagger ×1
sentence ×1
sparql ×1
stanford-nlp ×1
text-parsing ×1