小编Kev*_*ash的帖子

Pandas - 将日期列从 dd/mm/yy hh:mm:ss 转换为 yyyy-mm-dd hh:mm:ss

我有一个数据框（df），它有一个日期列（列名：sale_date），它以以下格式存储数据

dd/mm/yy hh:mm:ss

Run Code Online (Sandbox Code Playgroud)

我正在尝试将其转换为 yyyy-mm-dd hh:mm:ss。尝试了以下但它仍然没有将其转换为所需的格式。

df['sale_date'] = pd.to_datetime(df['sale_date'])

Run Code Online (Sandbox Code Playgroud)

任何人都可以协助转换此日期列的格式。谢谢

datetime date pandas

Kev*_*ash

lucky-day

11
推荐指数

2
解决办法

5万
查看次数

在 Airflow 中调度 dag 运行

有一个关于 Airflow 的一般查询

是否可以根据另一个 dag 文件的计划安排 dag 文件。

例如，如果我有 2 个 dag，即 dag1 和 dag2。我想看看每次 dag1 成功时我是否可以运行 dag2，否则 dag2 不会运行。这在气流中可能吗？

airflow airflow-scheduler

Kev*_*ash

lucky-day

5
推荐指数

2
解决办法

2651
查看次数

Xlsxwriter - 执行条件格式后不显示 0

我有以下代码使用 Xlsxwriter 包进行条件格式化。我目前面临的唯一问题是，当单元格值为“0”（零）时，单元格会根据条件进行格式化，但不会出现数字。但是，当我单击单元格时，我可以在 Excel 公式栏中看到该值。任何人都可以建议我如何显示零值。

db_conn()
dwh_cur.execute("""select prod.name,count(sale.id),count(is_defect), count(sale.is_defect)/count(sale.id) as Percent
from sales group by prod.name""")
df = dwh_cur.fetchall()

workbook = xlsxwriter.Workbook('Report.xlsx')
worksheet1 = workbook.add_worksheet('Report')

number_format = workbook.add_format({'num_format': '#,###', 'font_size': 14})

#Conditional format - Dark Red color
bad = workbook.add_format({'bg_color': '#ff0000',
                                'font_size': 14,
                                'font_name' :'Calibri',
                                'font_color': '#000000'}) 

#Conditional format - Red color
notbad = workbook.add_format({'bg_color': '#dd5b5b',
                                'font_size': 14,
                                'font_name' :'Calibri',
                                'font_color': '#000000'})

#Conditional format - Green color
good = workbook.add_format({'bg_color': '#008000',
                                'font_size': 14,
                                'font_name' :'Calibri',
                                'font_color': '#000000'})

#Conditional format - …

Run Code Online (Sandbox Code Playgroud)

python conditional-formatting xlsxwriter

Kev*_*ash

2018 10-08

5
推荐指数

1
解决办法

965
查看次数

Python-读取所有消息后退出 Kafka 队列

我正在尝试使用 Python 读取 Kafka 队列的一些数据，如下面的代码所示：

from kafka import KafkaConsumer
import sys
import json 
import pandas as pd


bootstrap_servers = [localhost]
topicName = 'topic'
consumer = KafkaConsumer (topicName, group_id = 'topic',bootstrap_servers = bootstrap_servers, auto_offset_reset = 'earliest')

data_list = []
for message in consumer:
    print(message)
    data = json.loads(message.value)
    df = pd.json_normalize(data)
    data_list.append(df)

Run Code Online (Sandbox Code Playgroud)

这似乎永远在循环中运行，除非我终止连接。有没有办法在读取所有消息后或者队列中没有新消息后停止/退出此循环？

python apache-kafka kafka-consumer-api

Kev*_*ash

2021 03-09

5
推荐指数

1
解决办法

1141
查看次数

Redshift - 聚合函数调用可能没有嵌套聚合或窗口函数

我正在尝试构建一个 SQL 查询，该查询将根据某些值计算销售额总和，如下所示：

下面是我的数据集的情况：

cust_name,sales_count,day_count
cust_a,100,3
cust_a,200,5
cust_a,150,7
cust_a,120,1
cust_a,180,10
cust_a,100,8
cust_b,20,3
cust_b,10,4
cust_b,50,6
cust_b,60,8
cust_b,15,9

Run Code Online (Sandbox Code Playgroud)

我想获得以下格式的输出

cust_name,sales_count,day_count
cust_a,280,last_14
cust_a,450,last_7
cust_b,85,last_14
cust_b,80,last_7

Run Code Online (Sandbox Code Playgroud)

下面给出的是我试图构建的案例陈述

select cust_name, 
       sum(case when day_count > 7 then count(sales_count) else 0 end) as count_14,
       sum(case when day_count < 7 then count(sales_count) else 0 end) as count_7
from sales
group by cust_name;

Run Code Online (Sandbox Code Playgroud)

我正在使用 Amazon Redshift 数据库。

在此链接中发现了类似的问题（Amazon Redshift-按类别获取每周销售计数），但我不断收到聚合函数调用可能没有嵌套聚合或窗口函数。

谁能帮忙解决这个问题。谢谢。

sql aggregate-functions amazon-redshift

Kev*_*ash

2018 06-19

4
推荐指数

1
解决办法

2万
查看次数

Pandas - 将嵌套的 json 分成多行

我的数据框位于以下结构中。我想根据详细信息列中的嵌套值来打破它们

cust_id, name, details
101, Kevin, [{"id":1001,"country":"US","state":"OH"}, {"id":1002,"country":"US","state":"GA"}]
102, Scott, [{"id":2001,"country":"US","state":"OH"}, {"id":2002,"country":"US","state":"GA"}]

Run Code Online (Sandbox Code Playgroud)

预期产出

cust_id, name, id, country, state
101, Kevin, 1001, US, OH
101, Kevin, 1002, US, GA
102, Scott, 2001, US, OH
102, Scott, 2002, US, GA

Run Code Online (Sandbox Code Playgroud)

pandas

Kev*_*ash

lucky-day

4
推荐指数

1
解决办法

1761
查看次数

Redshift - 合并两列

我有两列具有客户名称和产品名称.我想将这两列合并在它们之间的' - '.

任何人都可以建议如何做到这一点.我正在使用Redshift.我尝试了concat,string_agg但我试图看看是否有一种替代方式没有group by.

customer_name, product_name, expected_output
Kev, Prod_A, Kev - Prod_A

Run Code Online (Sandbox Code Playgroud)

sql string merge concatenation amazon-redshift

Kev*_*ash

2018 10-16

2
推荐指数

2
解决办法

954
查看次数

Pandas - 提取第 4 个字符后的所有文本

我想看看我们如何在第 4 个字符之后提取列中的所有字符。

col_a
XYZ123
ABCD001

Run Code Online (Sandbox Code Playgroud)

期待以下

col_a, new_col
XYZ123, 23
ABCD001, D001

Run Code Online (Sandbox Code Playgroud)

pandas

Kev*_*ash

lucky-day

2
推荐指数

1
解决办法

72
查看次数

Python - 将字段列表作为列传递给 SQL 查询

我正在尝试将列列表传递到 Python 中的 SQL 查询中。这仅返回列表，但不返回实际的列，如下所示：

cols = ["col_a","col_b","col_c"]


query = f"""select '{cols}' from table"""


Current Output : f"""select '["col_a","col_b","col_c"]' from table"""

Expected output: f"""select col_a, col_b, col_c from table"""

Run Code Online (Sandbox Code Playgroud)

python sql

Kev*_*ash

lucky-day

1
推荐指数

1
解决办法

1994
查看次数

Pandas - 如果不存在则创建新列

我有一个以下格式的数据框

col_1, col_2, col_3
1, 2, 3
2, 3, 4
2, 3, 5

Run Code Online (Sandbox Code Playgroud)

我正在尝试检查数据框是否有一组列，如果没有，我想将它们创建为数据框中的新列

cols_to_check = ['col_1', 'col_2', 'col_6', 'col_9']

Run Code Online (Sandbox Code Playgroud)

为此，我想继续创建col_6，col_9因为它们不存在于数据框中。

最终输出：

col_1, col_2, col_3, col_6, col_9
1, 2, 3, 0, 0
2, 3, 4, 0, 0
2, 3, 5, 0, 0

Run Code Online (Sandbox Code Playgroud)

dataframe pandas

Kev*_*ash

lucky-day

1
推荐指数

1
解决办法

2534
查看次数

使用 python 拉取更改日志的问题

我正在尝试使用 python 查询和拉取更改日志详细信息。

下面的代码返回项目中的问题列表。

issued = jira.search_issues('project=  proj_a', maxResults=5)

for issue in issued:
    print(issue)

Run Code Online (Sandbox Code Playgroud)

我正在尝试传递在上述问题中获得的值

issues = jira.issue(issue,expand='changelog')
changelog = issues.changelog
projects = jira.project(project)

Run Code Online (Sandbox Code Playgroud)

尝试上述操作时出现以下错误：

JIRAError: JiraError HTTP 404 url: https://abc.atlassian.net/rest/api/2/issue/issue?expand=changelog
text: Issue does not exist or you do not have permission to see it.

Run Code Online (Sandbox Code Playgroud)

任何人都可以就我哪里出错或我需要什么权限提出建议。

请注意，如果我issue_id在上面的代码中传递一个特定的，它工作得很好，但我试图传递一个列表issue_id

python-jira jira-rest-api

Kev*_*ash

lucky-day

0
推荐指数

1
解决办法

2332
查看次数