小编cma*_*her的帖子

Airflow Python运算符中的宏

我可以在PythonOperator中使用宏吗?我试过跟随,但我无法获得渲染的宏!

dag = DAG(
    'temp',
    default_args=default_args,
    description='temp dag',
    schedule_interval=timedelta(days=1))

def temp_def(a, b, **kwargs):
    print '{{ds}}'
    print '{{execution_date}}'
    print 'a=%s, b=%s, kwargs=%s' % (str(a), str(b), str(kwargs))

ds = '{{ ds }}'
mm = '{{ execution_date }}'

t1 = PythonOperator(
    task_id='temp_task',
    python_callable=temp_def,
    op_args=[mm , ds],
    provide_context=False,
    dag=dag)
Run Code Online (Sandbox Code Playgroud)

jinja2 airflow

15
推荐指数
2
解决办法
5830
查看次数

如何运行简单的气流DAG

我对Airflow完全不熟悉.我想在指定的日期运行一个简单的DAG.我很难在开始日期,执行日期和回填之间做出改变.运行DAG的命令是什么?

这是我以后尝试过的:

airflow run dag_1 task_1 2017-1-23
Run Code Online (Sandbox Code Playgroud)

我第一次运行该命令时,任务执行正确,但是当我再次尝试时它没有用.

这是我跑的另一个命令:

airflow backfill dag_1 -s 2017-1-23 -e 2017-1-24
Run Code Online (Sandbox Code Playgroud)

我不知道这个命令会发生什么.DAG每天会从23点到24点执行吗?

在运行上面的两个命令之前,我这样做了:

airflow initdb
airflow scheduler 
airflow webserver -p 8085 --debug &
Run Code Online (Sandbox Code Playgroud)

这是我的DAG

from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from datetime import datetime, timedelta
default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'start_date': datetime(2017, 1, 23, 12),
    'email': ['airflow@airflow.com'],
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': timedelta(minutes=5),
}

dag = DAG(
    'dag_1', default_args=default_args, schedule_interval=timedelta(1))

t1 = BashOperator(
    task_id='create_clients',
    bash_command='Rscript /scripts/Cli.r',
    dag=dag)

t2 = …
Run Code Online (Sandbox Code Playgroud)

python airflow

14
推荐指数
2
解决办法
3万
查看次数

foldr和foldl进一步的解释和例子

我看过不同的折叠折叠以及其他一些折叠,他们解释得相当好.

在这种情况下,我仍然无法解决lambda的工作原理.

foldr (\y ys -> ys ++ [y]) [] [1,2,3]
Run Code Online (Sandbox Code Playgroud)

有人可以一步一步地试着向我解释一下吗?

而且如何foldl工作?

syntax haskell function combinators fold

13
推荐指数
3
解决办法
2万
查看次数

Airflow DAG"似乎只在本地存在.主调度程序似乎并不知道它的存在"

我使用气流进行Spark作业的工作流程.安装后,我将DAG文件复制到airflow.cfg中设置的DAGs文件夹中.我可以回填DAG以成功运行BashOperators.但总有一个像上面提到的警告.我没有验证调度是否正常,但我怀疑调度可以工作,因为警告说主调度程序不知道我的DAG存在.如何消除此警告并获得调度工作?有人遇到同样的问题可以帮助我吗?

airflow

13
推荐指数
1
解决办法
8153
查看次数

我如何快速学习C#(呃),已经知道C,Java,C++等?

我想学习C#(在Linux上,所以使用Mono),我正在寻找一些能够掌握其他语言知识的指南; 最着名的是C,C++和Java(还有python,Haskell,lisp,也许还有其他一些).

到目前为止,我在网上找到的所有内容都是将编程介绍和C#介绍结合起来,但它们都失败了,因为我感到无聊,无法坚持我的学习计划.

有没有人建议好好阅读?

扩大这个问题,你如何学习一种类似于你已经知道的语言的新语言,以一种掌握你已有知识的方式?人们会写这些教程吗?你刚抓到一张备忘单吗?你有一系列练习吗?

编辑:我不知道任何其他Microsoft开发......好事.八年前我写了一点VB,但我不记得了.我没有ASP经验,没有任何其他.NET,没有MS语言或库的经验.即使我是在Windows上开发的,我还没有完成资本-D Windows开发.在提出建议时请考虑这一点.

c#

12
推荐指数
1
解决办法
4040
查看次数

如何根据PEP8格式化长SQL查询

根据PEP 8(最大行长度),行不应超过79个字符.

但是,当我尝试拆分查询时,会遇到连续字符和无效标记等问题.

例如,根据PEP8,格式化此查询的最佳方法是什么?

cursor.execute("SELECT pivot_id FROM aud_qty WHERE hshake1 is NULL AND ((strftime('%s', DATETIME('now')) - strftime('%s', sent_to_pivot)) / (60)) > 30;")
Run Code Online (Sandbox Code Playgroud)

python pep8 python-2.7

9
推荐指数
1
解决办法
5411
查看次数

在matplotlib中设置轴标签字体大小的简洁方法

我正在寻找设置轴标签及其字体大小的最简洁方法。

我知道我可以这样做:

ax.set_xlabel('X axis', fontsize = 12)
ax.set_ylabel('Y axis', fontsize = 12)
Run Code Online (Sandbox Code Playgroud)

我也知道我可以使用此命令来设置标签:

ax.set(xlabel = 'X axis', ylabel = 'Yaxis')
Run Code Online (Sandbox Code Playgroud)

但是,如果我尝试:

ax.set(xlabel = 'X axis', ylabel = 'Yaxis', fontsize = 12)
Run Code Online (Sandbox Code Playgroud)

我收到此错误:

TypeError: There is no AxesSubplot property "fontsize"
Run Code Online (Sandbox Code Playgroud)

我可以在set方法中表示字体大小吗?我想稍微整理一下我的代码并尽可能简洁。

python matplotlib

9
推荐指数
1
解决办法
1万
查看次数

在Redshift中创建大型VARCHAR值有缺点吗?

源数据不断为字段投放值,使其长度越来越大.现在我正在使用VARCHAR(200),但我可能会去VARCHAR(400).使用大量数据有什么缺点吗?

sql ddl amazon-redshift

8
推荐指数
2
解决办法
1264
查看次数

将AWS Postgres RDS表导出到AWS S3

我想使用AWS Data Pipeline将数据从Postgres RDS传输到AWS S3。有人知道这是怎么做的吗?

更确切地说,我想使用数据管道将Postgres表导出到AWS S3。我使用数据管道的原因是我想自动执行此过程,并且此导出将每周运行一次。

任何其他建议也将起作用。

postgresql amazon-s3 amazon-web-services amazon-rds amazon-data-pipeline

8
推荐指数
1
解决办法
7292
查看次数

从熊猫多索引数据框中获取最大值

我试图从具有多个索引的 Pandas 数据框中仅检索最大值(包括多索引值)。我拥有的数据框是通过 groupby 和列选择 ('tOfmAJyI') 生成的,如下所示:

df.groupby('id')['tOfmAJyI'].value_counts()

Out[4]: 
id     tOfmAJyI
3      mlNXN       4
       SSvEP       2
       hCIpw       2
5      SSvEP       2
       hCIpw       1
       mlNXN       1
11     mlNXN       2
       SSvEP       1
...
Run Code Online (Sandbox Code Playgroud)

我想实现的是获得最大值,包括它们相应的索引值。所以像:

id     tOfmAJyI
3      mlNXN       4
5      SSvEP       2
11     mlNXN       2
...
Run Code Online (Sandbox Code Playgroud)

我有什么想法可以实现这一目标吗?我能够获得 id 和最大值,但我仍在尝试获得 'tOfmAJyI' 的相应值。

python pandas pandas-groupby

8
推荐指数
1
解决办法
5566
查看次数