小编red*_*dct的帖子

从文本Python中识别和提取日期的最佳方法？

作为我正在开展的一个更大的个人项目的一部分,我试图从各种文本来源中分离出内联日期.

例如,我有一个很大的字符串列表(通常采用英语句子或语句的形式),采用多种形式:

中央设计委员会会议于10月22日星期二下午6:30举行

Th 9/19 LAB:串行编码(第2.2节)

对于那些今天无法成功的人,将在12月15日再举行一次.

练习册3(最低工资):截止于9月18日星期三晚上11:59

他将于9月15日飞行.

虽然这些日期与自然文本一致,但它们本身都不是特定的自然语言形式(例如,没有"会议将从明天开始两周" - 这一切都是明确的).

作为对这种处理没有太多经验的人,最好的开始是什么？我已经研究了dateutil.parser模块和解析时间之类的东西,但是这些似乎是在你隔离了日期之后.

因此,有没有什么好方法可以提取日期和无关文本

input:  Th 9/19 LAB: Serial encoding (Section 2.2)
output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)']

Run Code Online (Sandbox Code Playgroud)

或类似的东西？似乎这种处理是由Gmail和Apple Mail等应用程序完成的,但它是否可以在Python中实现？

python parsing nlp date

red*_*dct

lucky-day

29
推荐指数

5
解决办法

3万
查看次数

将多个pandas列合并到新列中

我有一个数据框,其中一些列表明是否看到了一组调查问题.例如:

Q1_Seen    Q2_Seen    Q3_Seen    Q4_Seen
    Q1a        nan        nan        nan
    nan        Q2a        nan        nan
    nan        nan        Q3d        nan
    nan        Q2c        nan        nan

Run Code Online (Sandbox Code Playgroud)

我想将这些列折叠成一列,比如说Q_Seen,它将采用以下形式:

Q_Seen
   Q1a
   Q2a
   Q3d
   Q2c

Run Code Online (Sandbox Code Playgroud)

请注意,每一行都是互斥的:如果其中一列中有值,则其他所有列都是NaN.

我尝试过这样做pd.concat,但它似乎没有产生正确的结果.

python analysis pandas

red*_*dct

lucky-day

6
推荐指数

1
解决办法

1719
查看次数

标签统计

python ×2

analysis ×1

date ×1

nlp ×1

pandas ×1

parsing ×1

从文本Python中识别和提取日期的最佳方法？

将多个pandas列合并到新列中

标签 统计

小编red_dct的帖子

标签统计