作为我正在开展的一个更大的个人项目的一部分,我试图从各种文本来源中分离出内联日期.
例如,我有一个很大的字符串列表(通常采用英语句子或语句的形式),采用多种形式:
中央设计委员会会议于10月22日星期二下午6:30举行
Th 9/19 LAB:串行编码(第2.2节)
对于那些今天无法成功的人,将在12月15日再举行一次.
练习册3(最低工资):截止于9月18日星期三晚上11:59
他将于9月15日飞行.
虽然这些日期与自然文本一致,但它们本身都不是特定的自然语言形式(例如,没有"会议将从明天开始两周" - 这一切都是明确的).
作为对这种处理没有太多经验的人,最好的开始是什么?我已经研究了dateutil.parser模块和解析时间之类的东西,但是这些似乎是在你隔离了日期之后.
因此,有没有什么好方法可以提取日期和无关文本
input: Th 9/19 LAB: Serial encoding (Section 2.2)
output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)']
Run Code Online (Sandbox Code Playgroud)
或类似的东西?似乎这种处理是由Gmail和Apple Mail等应用程序完成的,但它是否可以在Python中实现?
我有一个数据框,其中一些列表明是否看到了一组调查问题.例如:
Q1_Seen Q2_Seen Q3_Seen Q4_Seen
Q1a nan nan nan
nan Q2a nan nan
nan nan Q3d nan
nan Q2c nan nan
Run Code Online (Sandbox Code Playgroud)
我想将这些列折叠成一列,比如说Q_Seen,它将采用以下形式:
Q_Seen
Q1a
Q2a
Q3d
Q2c
Run Code Online (Sandbox Code Playgroud)
请注意,每一行都是互斥的:如果其中一列中有值,则其他所有列都是NaN.
我尝试过这样做pd.concat,但它似乎没有产生正确的结果.