小编Ary*_*azz的帖子

BigQuery - 我在哪里可以找到错误流?

我已经上传了一个包含从GCS到BigQuery的300K行的CSV文件,并收到以下错误:

error_image

我在哪里可以找到错误流?

我已经更改了create table配置以允许4000个错误并且它有效,所以它必须是消息中3894行的问题,但是这个错误消息并没有告诉我很多关于哪些行或为什么.

谢谢

google-bigquery google-cloud-platform

15
推荐指数
4
解决办法
9331
查看次数

Cloud Composer 任务无故失败或无日志记录

Airflow在托管Cloud-composer environment(版本 1.9.0)中运行,在Kubernetes1.10.9-gke.5 集群上运行。

我所有的 DAG 每天在凌晨 3:00 或凌晨 4:00 运行。但是在早上的某个时候,我看到一些任务在夜间无故失败。

  • 使用 UI 检查日志时 - 我没有看到日志,并且在检查 GCS 存储桶中的日志文件夹时也没有看到日志 在此处输入图片说明

  • 在实例详细信息中,它显示为“从调度开始的依赖项阻止任务”,但依赖项是 dagrun 本身。 在此处输入图片说明

  • 尽管 DAG 设置了 5 次重试和一封电子邮件,但它看起来似乎没有发生任何重试,而且我还没有收到有关失败的电子邮件。

  • 我通常只是清除任务实例,它会在第一次尝试时成功运行。

有没有人遇到过类似的问题?

google-cloud-platform airflow google-cloud-composer

7
推荐指数
1
解决办法
2555
查看次数

BigQuery-删除日期分割表的最佳方法

我有几个要删除的日期分片表,但每个表已经有100多个分片,因此不能手动删除它们。

我尝试使用通配符

DROP TABLE my_dataset.my_table_*;
Run Code Online (Sandbox Code Playgroud)

但它似乎不起作用。

我终于使用了python API:

for table_id in tables:
    table_ref = client.dataset(dataset_id).table(table_id)
    client.delete_table(table_ref)
Run Code Online (Sandbox Code Playgroud)

它可以工作,但是我需要使用要删除的表的名称来创建表数组。

有没有一种方法可以从用户界面中删除BigQuery中日期已划分的表的所有日期中的日期?

还是在用户界面中使用SQL命令?

还是在命令行中使用通配符?

谢谢

google-bigquery google-cloud-platform

5
推荐指数
1
解决办法
679
查看次数

如果数据框内列表上的任何值在另一个列表中,则对熊猫数据框行进行过滤

我有一个pandas dataframe包含列split_categories中的列表:

df.head()

      album_id categories split_categories
    0    66562    480.494       [480, 494]
    1   114582        128            [128]
    2     4846          5              [5]
    3     1709          9              [9]
    4    59239    105.104       [105, 104]
Run Code Online (Sandbox Code Playgroud)

我想选择所有行,其中至少一个类别在特定列表中[480,9,104]。

预期产量:

  album_id categories split_categories
0    66562    480.494       [480, 494]
3     1709          9              [9]
4    59239    105.104       [105, 104]
Run Code Online (Sandbox Code Playgroud)

我设法做到这一点apply

def match_categories(row):
    selected_categories =  [480, 9, 104]
    result = [int(i) for i in row['split_categories'] if i in selected_categories]
    return result

df['matched_categories'] = df.apply(match_categories, axis=1)
Run Code Online (Sandbox Code Playgroud)

但是这段代码在生产环境中运行,并且这种方式花费的时间太长(我在包含列表的多列中运行它)

有没有办法运行类似的东西:

df[~(df['split_categories'].anyvalue.isin([480, 9, …
Run Code Online (Sandbox Code Playgroud)

python python-2.7 pandas

5
推荐指数
1
解决办法
430
查看次数

我可以重新启动 Cloud Composer 环境吗?

Google Cloud现在使用 Composer 几天了,主要是将数据从 MySQL 移动到 BigQuery,它运行良好。

在某个时候,它停止工作:

  • 运行任务运行很长时间然后失败

  • 任务不开始

  • 新达格有评论This DAG seems to be existing only locally. The master scheduler doesn't seem to be aware of its existence

我已经使用 Airflow Web UI 清理了所有 DAG 运行和任务实例,但仍然无法工作。

有没有办法重新启动环境而不丢失已完成任务的结果?还有其他方法可以手动运行气流吗?

google-cloud-platform airflow google-cloud-composer

4
推荐指数
1
解决办法
4024
查看次数

Cloud Composer(Airflow)作业卡住了

自从我取消了一个耗时太长的任务实例以来,我的Cloud Composer管理人员Airflow被困了几个小时(我们称它为任务A)

我已经清除了所有DAG运行和任务实例,但是有几个正在运行的作业和一个处于“关机”状态的作业(我想是任务A的作业)(我的作业的快照)。

此外,由于最近删除的DAG一直出现在仪表板中,因此调度程序似乎未运行

有没有办法杀死工作或重置调度程序?不拘泥作曲家的任何想法都将受到欢迎。

google-cloud-platform airflow google-cloud-composer

2
推荐指数
1
解决办法
2523
查看次数