小编Dev*_*vEx的帖子

按照pandas数据框分组,然后在每个组中选择最新的

如何对pandas数据帧的值进行分组并从每个组中选择最新的(按日期)？

例如,给定按日期排序的数据框:

    id     product   date
0   220    6647     2014-09-01 
1   220    6647     2014-09-03 
2   220    6647     2014-10-16
3   826    3380     2014-11-11
4   826    3380     2014-12-09
5   826    3380     2015-05-19
6   901    4555     2014-09-01
7   901    4555     2014-10-05
8   901    4555     2014-11-01

Run Code Online (Sandbox Code Playgroud)

按ID或产品分组,并选择最早的给出:

    id     product   date
2   220    6647     2014-10-16
5   826    3380     2015-05-19
8   901    4555     2014-11-01

Run Code Online (Sandbox Code Playgroud)

python group-by pandas pandas-groupby

Dev*_*vEx

2017 11-12

42
推荐指数

4
解决办法

2万
查看次数

如何将pandas数据帧插入数据库中现有的表？

我sqlalchemy在pandas中使用查询postgres数据库,然后将转换结果插入到同一数据库中的另一个表中.但当我这样做时, df.to_sql('db_table2', engine)我收到此错误消息: ValueError: Table 'db_table2' already exists.我注意到它想要创建一个新表.如何将pandas数据帧插入到现有的表中？

df = pd.read_sql_query('select * from "db_table1"',con=engine)
#do transformation then save df to db_table2
df.to_sql('db_table2', engine)

ValueError: Table 'db_table2' already exists

Run Code Online (Sandbox Code Playgroud)

python database dataframe pandas

Dev*_*vEx

2018 01-23

18
推荐指数

2
解决办法

5万
查看次数

如何在气流中设置多个 Dag 目录

我为不同的 python 项目设置了不同的气流 dags，即一个父 dags 文件夹/vol/dags，其中包含基于不同 python 项目的 DAG 子文件夹：/vol/dags/project1/project1.py, /vol/dags/project2/project2.pywhere DAGS_FOLDER = /vol/dags.

project1.py例如从同一目录中的另一个 python 文件中导入一个函数，即/vol/dags/project1/mycalculator.py. 但是当我启动气流网络服务器时，我得到一个ImportError：

/vol/dags/project1/$ airflow webserver -p 8080

INFO - Filling up the DagBag from /vol/dags/
ERROR - Failed to import: /vol/dags/project1/project1.py
Traceback (most recent call last):
  File "/Users/xxx/anaconda/lib/python2.7/site-packages/airflow/models.py", line 247, in process_file
    m = imp.load_source(mod_name, filepath)
  File "/vol/dags/project1/project1.py", line 10, in <module>
    from mycalculator import *
ImportError: No module named mycalculator

Run Code Online (Sandbox Code Playgroud)

我试图导入mycalculator.py到 …

python airflow

Dev*_*vEx

lucky-day

9
推荐指数

3
解决办法

1万
查看次数

气流文件传感器的任何例子？

谁能给我指出一个如何使用 Airflow FileSensor 的例子？我用谷歌搜索过，还没有找到任何东西。任何例子就足够了。我的用例很简单：

等待预定的 DAG 将文件放入路径中，FileSensor 任务将其拾取、读取内容并处理它。

python airflow

Dev*_*vEx

2019 02-21

6
推荐指数

2
解决办法

1万
查看次数

正则表达式在两个标签之间找到单词

如何在python中使用正则表达式来查找标签之间的单词？

s = """<person>John</person>went to<location>London</location>"""
......
.......
print 'person of name:' John
print 'location:' London

Run Code Online (Sandbox Code Playgroud)

python regex

Dev*_*vEx

2014 03-07

5
推荐指数

2
解决办法

1万
查看次数

如何使用pandas将csv转换为字典

如何使用pandas将csv转换为字典？例如,我有2列,并希望column1为键,column2为值.我的数据如下:

"name","position"
"UCLA","73"
"SUNY","36"

cols = ['name', 'position']
df = pd.read_csv(filename, names = cols)

Run Code Online (Sandbox Code Playgroud)

python csv dictionary pandas

Dev*_*vEx

2015 08-17

5
推荐指数

2
解决办法

2万
查看次数

像在滑动窗口中一样遍历列表

如何在Python中实现类似于滑动窗口方法的这种迭代。

Given s = [1, 2, 3, 4, 5, 6]

[1, 2, 3]
   [2, 3, 4]
      [3, 4, 5]    
         [4, 5, 6]
            [5, 6]
               [6]

Run Code Online (Sandbox Code Playgroud)

python

Dev*_*vEx

lucky-day

5
推荐指数

1
解决办法

1855
查看次数

如何使用标题(第一行)作为Pig中的字段名称

给定第一行的csv文件可以作为标题,如何使用这些标题在Pig中动态加载字段名称？即

id,year,total
1,1999,190
2,1998,20

a = LOAD '/path/to/file.csv' USING PigStorage() AS --use first row as field names
> describe a;
> id:bytearray,year:bytearray,total:bytearray

Run Code Online (Sandbox Code Playgroud)

hadoop apache-pig

Dev*_*vEx

lucky-day

5
推荐指数

1
解决办法

3326
查看次数

JavaScript会生成除某些值之外的随机数

我通过调用生成1到20的随机数generateRandom().如何排除某些值,例如8和15？

function generateRandom(min, max) {
    return Math.floor(Math.random() * (max - min + 1)) + min;
}

var test = generateRandom(1, 20)

Run Code Online (Sandbox Code Playgroud)

javascript

Dev*_*vEx

2014 12-11

4
推荐指数

2
解决办法

1万
查看次数

检查pandas列是否包含零以外的其他值

我正在对数据帧进行复杂的计算，如果该列中的所有值都为零，则势必会引发异常。如何快速检查一列是否为零？即返回True如果列有其他其他值0其他False

pandas

Dev*_*vEx

lucky-day

4
推荐指数

1
解决办法

4754
查看次数

标签统计

python ×7

pandas ×4

airflow ×2

apache-pig ×1

csv ×1

database ×1

dataframe ×1

dictionary ×1

group-by ×1

hadoop ×1

javascript ×1

pandas-groupby ×1

regex ×1

标签 统计

小编Dev_vEx的帖子

标签统计