小编Kev*_*ash的帖子

Pandas - 将日期列从 dd/mm/yy hh:mm:ss 转换为 yyyy-mm-dd hh:mm:ss

我有一个数据框(df),它有一个日期列(列名:sale_date),它以以下格式存储数据

dd/mm/yy hh:mm:ss
Run Code Online (Sandbox Code Playgroud)

我正在尝试将其转换为 yyyy-mm-dd hh:mm:ss。尝试了以下但它仍然没有将其转换为所需的格式。

df['sale_date'] = pd.to_datetime(df['sale_date'])
Run Code Online (Sandbox Code Playgroud)

任何人都可以协助转换此日期列的格式。谢谢

datetime date pandas

11
推荐指数
2
解决办法
5万
查看次数

在 Airflow 中调度 dag 运行

有一个关于 Airflow 的一般查询

是否可以根据另一个 dag 文件的计划安排 dag 文件。

例如,如果我有 2 个 dag,即 dag1 和 dag2。我想看看每次 dag1 成功时我是否可以运行 dag2,否则 dag2 不会运行。这在气流中可能吗?

airflow airflow-scheduler

5
推荐指数
2
解决办法
2651
查看次数

Xlsxwriter - 执行条件格式后不显示 0

我有以下代码使用 Xlsxwriter 包进行条件格式化。我目前面临的唯一问题是,当单元格值为“0”(零)时,单元格会根据条件进行格式化,但不会出现数字。但是,当我单击单元格时,我可以在 Excel 公式栏中看到该值。任何人都可以建议我如何显示零值。

db_conn()
dwh_cur.execute("""select prod.name,count(sale.id),count(is_defect), count(sale.is_defect)/count(sale.id) as Percent
from sales group by prod.name""")
df = dwh_cur.fetchall()

workbook = xlsxwriter.Workbook('Report.xlsx')
worksheet1 = workbook.add_worksheet('Report')

number_format = workbook.add_format({'num_format': '#,###', 'font_size': 14})

#Conditional format - Dark Red color
bad = workbook.add_format({'bg_color': '#ff0000',
                                'font_size': 14,
                                'font_name' :'Calibri',
                                'font_color': '#000000'}) 

#Conditional format - Red color
notbad = workbook.add_format({'bg_color': '#dd5b5b',
                                'font_size': 14,
                                'font_name' :'Calibri',
                                'font_color': '#000000'})

#Conditional format - Green color
good = workbook.add_format({'bg_color': '#008000',
                                'font_size': 14,
                                'font_name' :'Calibri',
                                'font_color': '#000000'})

#Conditional format - …
Run Code Online (Sandbox Code Playgroud)

python conditional-formatting xlsxwriter

5
推荐指数
1
解决办法
965
查看次数

Python-读取所有消息后退出 Kafka 队列

我正在尝试使用 Python 读取 Kafka 队列的一些数据,如下面的代码所示:

from kafka import KafkaConsumer
import sys
import json 
import pandas as pd


bootstrap_servers = [localhost]
topicName = 'topic'
consumer = KafkaConsumer (topicName, group_id = 'topic',bootstrap_servers = bootstrap_servers, auto_offset_reset = 'earliest')

data_list = []
for message in consumer:
    print(message)
    data = json.loads(message.value)
    df = pd.json_normalize(data)
    data_list.append(df)
Run Code Online (Sandbox Code Playgroud)

这似乎永远在循环中运行,除非我终止连接。有没有办法在读取所有消息后或者队列中没有新消息后停止/退出此循环?

python apache-kafka kafka-consumer-api

5
推荐指数
1
解决办法
1141
查看次数

Redshift - 聚合函数调用可能没有嵌套聚合或窗口函数

我正在尝试构建一个 SQL 查询,该查询将根据某些值计算销售额总和,如下所示:

下面是我的数据集的情况:

cust_name,sales_count,day_count
cust_a,100,3
cust_a,200,5
cust_a,150,7
cust_a,120,1
cust_a,180,10
cust_a,100,8
cust_b,20,3
cust_b,10,4
cust_b,50,6
cust_b,60,8
cust_b,15,9
Run Code Online (Sandbox Code Playgroud)

我想获得以下格式的输出

cust_name,sales_count,day_count
cust_a,280,last_14
cust_a,450,last_7
cust_b,85,last_14
cust_b,80,last_7
Run Code Online (Sandbox Code Playgroud)

下面给出的是我试图构建的案例陈述

select cust_name, 
       sum(case when day_count > 7 then count(sales_count) else 0 end) as count_14,
       sum(case when day_count < 7 then count(sales_count) else 0 end) as count_7
from sales
group by cust_name;
Run Code Online (Sandbox Code Playgroud)

我正在使用 Amazon Redshift 数据库。

在此链接中发现了类似的问题(Amazon Redshift-按类别获取每周销售计数),但我不断收到聚合函数调用可能没有嵌套聚合或窗口函数

谁能帮忙解决这个问题。谢谢。

sql aggregate-functions amazon-redshift

4
推荐指数
1
解决办法
2万
查看次数

Pandas - 将嵌套的 json 分成多行

我的数据框位于以下结构中。我想根据详细信息列中的嵌套值来打破它们

cust_id, name, details
101, Kevin, [{"id":1001,"country":"US","state":"OH"}, {"id":1002,"country":"US","state":"GA"}]
102, Scott, [{"id":2001,"country":"US","state":"OH"}, {"id":2002,"country":"US","state":"GA"}]
Run Code Online (Sandbox Code Playgroud)

预期产出

cust_id, name, id, country, state
101, Kevin, 1001, US, OH
101, Kevin, 1002, US, GA
102, Scott, 2001, US, OH
102, Scott, 2002, US, GA
Run Code Online (Sandbox Code Playgroud)

pandas

4
推荐指数
1
解决办法
1761
查看次数

Redshift - 合并两列

我有两列具有客户名称和产品名称.我想将这两列合并在它们之间的' - '.

任何人都可以建议如何做到这一点.我正在使用Redshift.我尝试了concat,string_agg但我试图看看是否有一种替代方式没有group by.

customer_name, product_name, expected_output
Kev, Prod_A, Kev - Prod_A
Run Code Online (Sandbox Code Playgroud)

sql string merge concatenation amazon-redshift

2
推荐指数
2
解决办法
954
查看次数

Pandas - 提取第 4 个字符后的所有文本

我想看看我们如何在第 4 个字符之后提取列中的所有字符。

col_a
XYZ123
ABCD001
Run Code Online (Sandbox Code Playgroud)

期待以下

col_a, new_col
XYZ123, 23
ABCD001, D001
Run Code Online (Sandbox Code Playgroud)

pandas

2
推荐指数
1
解决办法
72
查看次数

Python - 将字段列表作为列传递给 SQL 查询

我正在尝试将列列表传递到 Python 中的 SQL 查询中。这仅返回列表,但不返回实际的列,如下所示:

cols = ["col_a","col_b","col_c"]


query = f"""select '{cols}' from table"""


Current Output : f"""select '["col_a","col_b","col_c"]' from table"""

Expected output: f"""select col_a, col_b, col_c from table"""
Run Code Online (Sandbox Code Playgroud)

python sql

1
推荐指数
1
解决办法
1994
查看次数

Pandas - 如果不存在则创建新列

我有一个以下格式的数据框

col_1, col_2, col_3
1, 2, 3
2, 3, 4
2, 3, 5
Run Code Online (Sandbox Code Playgroud)

我正在尝试检查数据框是否有一组列,如果没有,我想将它们创建为数据框中的新列

cols_to_check = ['col_1', 'col_2', 'col_6', 'col_9']
Run Code Online (Sandbox Code Playgroud)

为此,我想继续创建col_6col_9因为它们不存在于数据框中。

最终输出:

col_1, col_2, col_3, col_6, col_9
1, 2, 3, 0, 0
2, 3, 4, 0, 0
2, 3, 5, 0, 0
Run Code Online (Sandbox Code Playgroud)

dataframe pandas

1
推荐指数
1
解决办法
2534
查看次数

使用 python 拉取更改日志的问题

我正在尝试使用 python 查询和拉取更改日志详细信息。

下面的代码返回项目中的问题列表。

issued = jira.search_issues('project=  proj_a', maxResults=5)

for issue in issued:
    print(issue)
Run Code Online (Sandbox Code Playgroud)

我正在尝试传递在上述问题中获得的值

issues = jira.issue(issue,expand='changelog')
changelog = issues.changelog
projects = jira.project(project)
Run Code Online (Sandbox Code Playgroud)

尝试上述操作时出现以下错误:

JIRAError: JiraError HTTP 404 url: https://abc.atlassian.net/rest/api/2/issue/issue?expand=changelog
text: Issue does not exist or you do not have permission to see it.
Run Code Online (Sandbox Code Playgroud)

任何人都可以就我哪里出错或我需要什么权限提出建议。

请注意,如果我issue_id在上面的代码中传递一个特定的,它工作得很好,但我试图传递一个列表issue_id

python-jira jira-rest-api

0
推荐指数
1
解决办法
2332
查看次数