小编Dev*_*vEx的帖子

按照pandas数据框分组,然后在每个组中选择最新的

如何对pandas数据帧的值进行分组并从每个组中选择最新的(按日期)?

例如,给定按日期排序的数据框:

    id     product   date
0   220    6647     2014-09-01 
1   220    6647     2014-09-03 
2   220    6647     2014-10-16
3   826    3380     2014-11-11
4   826    3380     2014-12-09
5   826    3380     2015-05-19
6   901    4555     2014-09-01
7   901    4555     2014-10-05
8   901    4555     2014-11-01
Run Code Online (Sandbox Code Playgroud)

按ID或产品分组,并选择最早的给出:

    id     product   date
2   220    6647     2014-10-16
5   826    3380     2015-05-19
8   901    4555     2014-11-01
Run Code Online (Sandbox Code Playgroud)

python group-by pandas pandas-groupby

42
推荐指数
4
解决办法
2万
查看次数

如何将pandas数据帧插入数据库中现有的表?

sqlalchemy在pandas中使用查询postgres数据库,然后将转换结果插入到同一数据库中的另一个表中.但当我这样做时, df.to_sql('db_table2', engine)我收到此错误消息: ValueError: Table 'db_table2' already exists.我注意到它想要创建一个新表.如何将pandas数据帧插入到现有的表中?

df = pd.read_sql_query('select * from "db_table1"',con=engine)
#do transformation then save df to db_table2
df.to_sql('db_table2', engine)

ValueError: Table 'db_table2' already exists
Run Code Online (Sandbox Code Playgroud)

python database dataframe pandas

18
推荐指数
2
解决办法
5万
查看次数

如何在气流中设置多个 Dag 目录

我为不同的 python 项目设置了不同的气流 dags,即一个父 dags 文件夹/vol/dags,其中包含基于不同 python 项目的 DAG 子文件夹:/vol/dags/project1/project1.py, /vol/dags/project2/project2.pywhere DAGS_FOLDER = /vol/dags.

project1.py例如从同一目录中的另一个 python 文件中导入一个函数,即/vol/dags/project1/mycalculator.py. 但是当我启动气流网络服务器时,我得到一个ImportError

/vol/dags/project1/$ airflow webserver -p 8080

INFO - Filling up the DagBag from /vol/dags/
ERROR - Failed to import: /vol/dags/project1/project1.py
Traceback (most recent call last):
  File "/Users/xxx/anaconda/lib/python2.7/site-packages/airflow/models.py", line 247, in process_file
    m = imp.load_source(mod_name, filepath)
  File "/vol/dags/project1/project1.py", line 10, in <module>
    from mycalculator import *
ImportError: No module named mycalculator
Run Code Online (Sandbox Code Playgroud)

我试图导入mycalculator.py到 …

python airflow

9
推荐指数
3
解决办法
1万
查看次数

气流文件传感器的任何例子?

谁能给我指出一个如何使用 Airflow FileSensor 的例子?我用谷歌搜索过,还没有找到任何东西。任何例子就足够了。我的用例很简单:

等待预定的 DAG 将文件放入路径中,FileSensor 任务将其拾取、读取内容并处理它。

python airflow

6
推荐指数
2
解决办法
1万
查看次数

正则表达式在两个标签之间找到单词

如何在python中使用正则表达式来查找标签之间的单词?

s = """<person>John</person>went to<location>London</location>"""
......
.......
print 'person of name:' John
print 'location:' London 
Run Code Online (Sandbox Code Playgroud)

python regex

5
推荐指数
2
解决办法
1万
查看次数

如何使用pandas将csv转换为字典

如何使用pandas将csv转换为字典?例如,我有2列,并希望column1为键,column2为值.我的数据如下:

"name","position"
"UCLA","73"
"SUNY","36"

cols = ['name', 'position']
df = pd.read_csv(filename, names = cols)
Run Code Online (Sandbox Code Playgroud)

python csv dictionary pandas

5
推荐指数
2
解决办法
2万
查看次数

像在滑动窗口中一样遍历列表

如何在Python中实现类似于滑动窗口方法的这种迭代。

Given s = [1, 2, 3, 4, 5, 6]

[1, 2, 3]
   [2, 3, 4]
      [3, 4, 5]    
         [4, 5, 6]
            [5, 6]
               [6]
Run Code Online (Sandbox Code Playgroud)

python

5
推荐指数
1
解决办法
1855
查看次数

如何使用标题(第一行)作为Pig中的字段名称

给定第一行的csv文件可以作为标题,如何使用这些标题在Pig中动态加载字段名称?即

id,year,total
1,1999,190
2,1998,20

a = LOAD '/path/to/file.csv' USING PigStorage() AS --use first row as field names
> describe a;
> id:bytearray,year:bytearray,total:bytearray 
Run Code Online (Sandbox Code Playgroud)

hadoop apache-pig

5
推荐指数
1
解决办法
3326
查看次数

JavaScript会生成除某些值之外的随机数

我通过调用生成1到20的随机数generateRandom().如何排除某些值,例如8和15?

function generateRandom(min, max) {
    return Math.floor(Math.random() * (max - min + 1)) + min;
}

var test = generateRandom(1, 20)
Run Code Online (Sandbox Code Playgroud)

javascript

4
推荐指数
2
解决办法
1万
查看次数

检查pandas列是否包含零以外的其他值

我正在对数据帧进行复杂的计算,如果该列中的所有值都为零,则势必会引发异常。如何快速检查一列是否为零?即返回True如果列有其他其他值0其他False

pandas

4
推荐指数
1
解决办法
4754
查看次数