我是一名护士,我知道python,但我不是专家,只是用它来处理DNA序列
我们得到了用人类语言编写的医院记录,我应该将这些数据插入数据库或csv文件,但它们超过5000线条,这可能是如此困难.所有数据都以一致的格式编写,让我给大家展示一个例子
11/11/2010 - 09:00am : He got nausea, vomiting and died 4 hours later
Run Code Online (Sandbox Code Playgroud)
我应该得到以下数据
Sex: Male
Symptoms: Nausea
Vomiting
Death: True
Death Time: 11/11/2010 - 01:00pm
Run Code Online (Sandbox Code Playgroud)
另一个例子
11/11/2010 - 09:00am : She got heart burn, vomiting of blood and died 1 hours later in the operation room
Run Code Online (Sandbox Code Playgroud)
我明白了
Sex: Female
Symptoms: Heart burn
Vomiting of blood
Death: True
Death Time: 11/11/2010 - 10:00am
Run Code Online (Sandbox Code Playgroud)
当我说.......所以in是一个关键词并且之后的所有文本都是一个地方,直到我找到另一个关键词
在开始他或她确定性,得到..... 时,顺序不一致...无论后面是一组症状,我应该根据分隔符分开,可以是逗号,夸张或其他什么,但它是一致的同一条线
死了.....小时后也应该得到多少小时,有时患者仍然活着并且已经出院......等等
我说我们有很多约定,我想如果我能用关键字和模式对文本进行标记,我可以完成工作.所以,如果你知道一个有用的函数/模块/教程/工具,最好在python(如果不是python,所以一个gui工具会很好)
一些信息:
there are a lot of rules to express various …Run Code Online (Sandbox Code Playgroud)