标签: information-extraction

Apple如何在电子邮件中查找日期,时间和地址?

在iOS电子邮件客户端中,当电子邮件包含日期,时间或位置时,文本将成为超链接,只需点击链接即可创建约会或查看地图.它不仅适用于英语电子邮件,也适用于其他语言.我喜欢这个功能,想了解他们是如何做到的.

这样做的天真方法是拥有许多正则表达式并运行它们.但是我不能很好地扩展它并且只适用于特定的语言或日期格式等.我认为Apple必须使用一些机器学习的概念来提取实体(晚上8点,晚上8点,8点, 0800,20:00,20h,20h00,2000等).

知道Apple如何能够在其电子邮件客户端中如此快速地提取实体?您将应用什么机器学习算法来完成这样的任务?

nlp machine-learning named-entity-recognition information-extraction

128
推荐指数
4
解决办法
2万
查看次数

高级PDF使用Python解析(提取没有表格的文本等):什么是最佳库?

我正在寻找一个PDF库,它允许我从PDF文档中提取文本.我看过PyPDF,这可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取.这可能会有问题,因为它会产生一些无效且看起来乱码的文本部分(例如,大量数字混在一起).

我正在寻找更高级的东西.我想从PDF文档中提取文本,不包括任何表格和特殊格式.那里有图书馆吗?或者我被迫对输出文本进行一些后处理以摆脱这些部分?

python pdf parsing text-extraction information-extraction

81
推荐指数
1
解决办法
11万
查看次数

什么是CoNLL数据格式?

我是文本挖掘的新手.我正在使用一个开源jar(Mate Parser),它在依赖解析后以CoNLL 2009格式给出输出.我想使用依赖解析结果进行信息提取.但我能够理解一些输出但不能理解CoNLL数据格式.任何人都可以帮助我理解CoNLL数据格式吗?任何类型的指针将不胜感激.

nlp text-parsing text-mining information-extraction

50
推荐指数
2
解决办法
3万
查看次数

从多个句子中选择或生成规范变体

我正在使用将我的GTIN/EAN查询映射到产品数据的API.

由于返回的数据来自商家产品供稿,因此几乎普遍存在以下情况:

  • 每个GTIN多个结果
  • 产品的标题几乎都是非结构化的
  • 产品的标题被"污染"
    • SEO相关的东西,
    • 有关数量的信息,
    • "买二送一"优惠,
    • 等等

我正在寻找一种程序化方式

  • 选择 "最干净"/最规范的版本
  • 或者生成一个代表"最低公分母"的新的.

请考虑以下单个EAN查询的示例结果:

  • 妮维雅Deo Roll-On Dry Impact for Men
  • NIVEA DEO滚动干/ blau
  • Nivea Deo Roll-On干式冲击男士,50毫升,3升装(3 x 50毫升)
  • Nivea Deo Roll on Dry/blau 50 ml
  • Nivea Deoroller 50ml干燥男士blau Mindestabnahme:6Stück(1 VE)
  • NIVEA Deoroller,对男性的干燥影响
  • NIVEA DEO干燥/ blau_50毫升

我的自制方法看起来像这样:

  • 基本清理:
    • 小写标题,
    • 剥去过多的空白
    • 抛出明显的停顿词,如"买"和"点击"
  • 为...构建一个数组 word => global occurence
    • "Nivea" => 7
    • "Deo" => 5
    • "Deoroller" => 2
    • "VE" => 1
  • 计算每个标题的"累积字值"
    • "Nivea Deo" => 12
    • "Nivea Deoroller VE" => 10 …

php nlp text-mining information-extraction

23
推荐指数
1
解决办法
746
查看次数

适用于Java的媒体信息提取器

我需要一个可以处理常见媒体格式的媒体信息提取库(纯Java或JNI包装器).我主要将它用于视频文件,我至少需要这些信息:

  1. 视频长度(运行时)
  2. 视频比特率
  3. 视频帧率
  4. 视频格式和编解码器
  5. 视频大小(宽X高)
  6. 音频频道
  7. 音频格式
  8. 音频比特率和采样率

有几个库和工具,但我找不到Java.

java media information-extraction

17
推荐指数
1
解决办法
3万
查看次数

使用Python提取医疗信息

我是一名护士,我知道python,但我不是专家,只是用它来处理DNA序列
我们得到了用人类语言编写的医院记录,我应该将这些数据插入数据库或csv文件,但它们超过5000线条,这可能是如此困难.所有数据都以一致的格式编写,让我给大家展示一个例子

11/11/2010 - 09:00am : He got nausea, vomiting and died 4 hours later
Run Code Online (Sandbox Code Playgroud)

我应该得到以下数据

Sex: Male
Symptoms: Nausea
    Vomiting
Death: True
Death Time: 11/11/2010 - 01:00pm
Run Code Online (Sandbox Code Playgroud)

另一个例子

11/11/2010 - 09:00am : She got heart burn, vomiting of blood and died 1 hours later in the operation room
Run Code Online (Sandbox Code Playgroud)

我明白了

Sex: Female
Symptoms: Heart burn
    Vomiting of blood
Death: True
Death Time: 11/11/2010 - 10:00am
Run Code Online (Sandbox Code Playgroud)

当我说.......所以in是一个关键词并且之后的所有文本都是一个地方,直到我找到另一个关键词
在开始他或她确定性,得到..... 时,顺序不一致...无论后面是一组症状,我应该根据分隔符分开,可以是逗号,夸张或其他什么,但它是一致的同一条线
死了.....小时后也应该得到多少小时,有时患者仍然活着并且已经出院......等等
我说我们有很多约定,我想如果我能用关键字和模式对文本进行标记,我可以完成工作.所以,如果你知道一个有用的函数/模块/教程/工具,最好在python(如果不是python,所以一个gui工具会很好)

一些信息:

there are a lot of rules to express various …
Run Code Online (Sandbox Code Playgroud)

python parsing nlp machine-learning information-extraction

13
推荐指数
2
解决办法
3890
查看次数

如何将依赖路径编码为分类功能?

我试图在动词对之间实现关系提取.我想使用从一个动词到另一个动词的依赖路径作为我的分类器的一个特征(预测关系X是否存在).但我不确定如何将依赖路径编码为一个功能.以下是一些示例依赖路径,作为与StanfordCoreNLP Collapsed Dependencies的空格分隔关系注释:

nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of
Run Code Online (Sandbox Code Playgroud)

重要的是要记住,这些路径长度可变,并且可以不受任何限制地重新出现这种关系.

我想到的两种对这种功能进行编码的折衷方法是:

1)忽略序列,每个关系只有一个特征,其值是它在路径中出现的次数

2)具有长度为n的滑动窗口,并且对于每个可能的关系对具有一个特征,其值是这两个关系连续出现的次数.我想这是编码n-gram的方式.但是,可能关系的数量是50,这意味着我不能真正采用这种方法.

欢迎任何建议.

nlp machine-learning feature-extraction information-extraction stanford-nlp

12
推荐指数
1
解决办法
786
查看次数

使用DBPedia的示例python脚本?

我正在编写一个python脚本,从几个国家和语言的数千篇新闻文章的集合中提取"实体名称".

我想利用令人惊叹的DBPedia结构化knwoledge,例如查找"埃及艺术家"的名字和"加拿大公司"的名称.

(如果这些信息是SQL形式的,我就没有问题了.)

我更愿意下载DBPedia内容并离线使用它.有什么需要这样做的想法以及如何从python本地查询?

python mysql sparql information-extraction dbpedia

11
推荐指数
2
解决办法
5587
查看次数

信息提取和文本挖掘有什么区别?

它看起来很容易.但我很困惑.

文本挖掘和信息提取有什么区别?

nlp information-retrieval text-mining information-extraction

11
推荐指数
1
解决办法
6082
查看次数

NLP用于从文本中提取动作

我希望有人可以指出我正确的方向来学习从一堆文本中分离出行动.

假设我有这个文本

Drop off the dry cleaning, and go to the corner store and pick-up a jug of milk and get a pint of strawberries.
Then, go pick up the kids from school. First, get John who is in the daycare next to the library, and then get Sam who is two blocks away. 
By the time you've got the kids, you'll need to stop by the doctors office for the perscription. Tim's flight arrives at 4pm. 
It's American Airlines …

nlp machine-learning information-extraction pos-tagger sentence

10
推荐指数
1
解决办法
2137
查看次数