我有一个数据框(df),它有一个日期列(列名:sale_date),它以以下格式存储数据
dd/mm/yy hh:mm:ss
Run Code Online (Sandbox Code Playgroud)
我正在尝试将其转换为 yyyy-mm-dd hh:mm:ss。尝试了以下但它仍然没有将其转换为所需的格式。
df['sale_date'] = pd.to_datetime(df['sale_date'])
Run Code Online (Sandbox Code Playgroud)
任何人都可以协助转换此日期列的格式。谢谢
有一个关于 Airflow 的一般查询
是否可以根据另一个 dag 文件的计划安排 dag 文件。
例如,如果我有 2 个 dag,即 dag1 和 dag2。我想看看每次 dag1 成功时我是否可以运行 dag2,否则 dag2 不会运行。这在气流中可能吗?
我有以下代码使用 Xlsxwriter 包进行条件格式化。我目前面临的唯一问题是,当单元格值为“0”(零)时,单元格会根据条件进行格式化,但不会出现数字。但是,当我单击单元格时,我可以在 Excel 公式栏中看到该值。任何人都可以建议我如何显示零值。
db_conn()
dwh_cur.execute("""select prod.name,count(sale.id),count(is_defect), count(sale.is_defect)/count(sale.id) as Percent
from sales group by prod.name""")
df = dwh_cur.fetchall()
workbook = xlsxwriter.Workbook('Report.xlsx')
worksheet1 = workbook.add_worksheet('Report')
number_format = workbook.add_format({'num_format': '#,###', 'font_size': 14})
#Conditional format - Dark Red color
bad = workbook.add_format({'bg_color': '#ff0000',
'font_size': 14,
'font_name' :'Calibri',
'font_color': '#000000'})
#Conditional format - Red color
notbad = workbook.add_format({'bg_color': '#dd5b5b',
'font_size': 14,
'font_name' :'Calibri',
'font_color': '#000000'})
#Conditional format - Green color
good = workbook.add_format({'bg_color': '#008000',
'font_size': 14,
'font_name' :'Calibri',
'font_color': '#000000'})
#Conditional format - …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用 Python 读取 Kafka 队列的一些数据,如下面的代码所示:
from kafka import KafkaConsumer
import sys
import json
import pandas as pd
bootstrap_servers = [localhost]
topicName = 'topic'
consumer = KafkaConsumer (topicName, group_id = 'topic',bootstrap_servers = bootstrap_servers, auto_offset_reset = 'earliest')
data_list = []
for message in consumer:
print(message)
data = json.loads(message.value)
df = pd.json_normalize(data)
data_list.append(df)
Run Code Online (Sandbox Code Playgroud)
这似乎永远在循环中运行,除非我终止连接。有没有办法在读取所有消息后或者队列中没有新消息后停止/退出此循环?
我正在尝试构建一个 SQL 查询,该查询将根据某些值计算销售额总和,如下所示:
下面是我的数据集的情况:
cust_name,sales_count,day_count
cust_a,100,3
cust_a,200,5
cust_a,150,7
cust_a,120,1
cust_a,180,10
cust_a,100,8
cust_b,20,3
cust_b,10,4
cust_b,50,6
cust_b,60,8
cust_b,15,9
Run Code Online (Sandbox Code Playgroud)
我想获得以下格式的输出
cust_name,sales_count,day_count
cust_a,280,last_14
cust_a,450,last_7
cust_b,85,last_14
cust_b,80,last_7
Run Code Online (Sandbox Code Playgroud)
下面给出的是我试图构建的案例陈述
select cust_name,
sum(case when day_count > 7 then count(sales_count) else 0 end) as count_14,
sum(case when day_count < 7 then count(sales_count) else 0 end) as count_7
from sales
group by cust_name;
Run Code Online (Sandbox Code Playgroud)
我正在使用 Amazon Redshift 数据库。
在此链接中发现了类似的问题(Amazon Redshift-按类别获取每周销售计数),但我不断收到聚合函数调用可能没有嵌套聚合或窗口函数。
谁能帮忙解决这个问题。谢谢。
我的数据框位于以下结构中。我想根据详细信息列中的嵌套值来打破它们
cust_id, name, details
101, Kevin, [{"id":1001,"country":"US","state":"OH"}, {"id":1002,"country":"US","state":"GA"}]
102, Scott, [{"id":2001,"country":"US","state":"OH"}, {"id":2002,"country":"US","state":"GA"}]
Run Code Online (Sandbox Code Playgroud)
预期产出
cust_id, name, id, country, state
101, Kevin, 1001, US, OH
101, Kevin, 1002, US, GA
102, Scott, 2001, US, OH
102, Scott, 2002, US, GA
Run Code Online (Sandbox Code Playgroud) 我有两列具有客户名称和产品名称.我想将这两列合并在它们之间的' - '.
任何人都可以建议如何做到这一点.我正在使用Redshift.我尝试了concat,string_agg但我试图看看是否有一种替代方式没有group by.
customer_name, product_name, expected_output
Kev, Prod_A, Kev - Prod_A
Run Code Online (Sandbox Code Playgroud) 我想看看我们如何在第 4 个字符之后提取列中的所有字符。
col_a
XYZ123
ABCD001
Run Code Online (Sandbox Code Playgroud)
期待以下
col_a, new_col
XYZ123, 23
ABCD001, D001
Run Code Online (Sandbox Code Playgroud) 我正在尝试将列列表传递到 Python 中的 SQL 查询中。这仅返回列表,但不返回实际的列,如下所示:
cols = ["col_a","col_b","col_c"]
query = f"""select '{cols}' from table"""
Current Output : f"""select '["col_a","col_b","col_c"]' from table"""
Expected output: f"""select col_a, col_b, col_c from table"""
Run Code Online (Sandbox Code Playgroud) 我有一个以下格式的数据框
col_1, col_2, col_3
1, 2, 3
2, 3, 4
2, 3, 5
Run Code Online (Sandbox Code Playgroud)
我正在尝试检查数据框是否有一组列,如果没有,我想将它们创建为数据框中的新列
cols_to_check = ['col_1', 'col_2', 'col_6', 'col_9']
Run Code Online (Sandbox Code Playgroud)
为此,我想继续创建col_6,col_9因为它们不存在于数据框中。
最终输出:
col_1, col_2, col_3, col_6, col_9
1, 2, 3, 0, 0
2, 3, 4, 0, 0
2, 3, 5, 0, 0
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用 python 查询和拉取更改日志详细信息。
下面的代码返回项目中的问题列表。
issued = jira.search_issues('project= proj_a', maxResults=5)
for issue in issued:
print(issue)
Run Code Online (Sandbox Code Playgroud)
我正在尝试传递在上述问题中获得的值
issues = jira.issue(issue,expand='changelog')
changelog = issues.changelog
projects = jira.project(project)
Run Code Online (Sandbox Code Playgroud)
尝试上述操作时出现以下错误:
JIRAError: JiraError HTTP 404 url: https://abc.atlassian.net/rest/api/2/issue/issue?expand=changelog
text: Issue does not exist or you do not have permission to see it.
Run Code Online (Sandbox Code Playgroud)
任何人都可以就我哪里出错或我需要什么权限提出建议。
请注意,如果我issue_id在上面的代码中传递一个特定的,它工作得很好,但我试图传递一个列表issue_id
pandas ×4
python ×3
sql ×3
airflow ×1
apache-kafka ×1
dataframe ×1
date ×1
datetime ×1
merge ×1
python-jira ×1
string ×1
xlsxwriter ×1