小编Jut*_*uta的帖子

BigQuery 嵌套字段：不能在 SELECT DISTINCT 中使用 ARRAY 类型的列单元

我想在 BigQuery 中选择表的唯一行，但出现以下错误：“无法在 SELECT DISTINCT 中使用 ARRAY 类型的列单位”。

我的查询是

SELECT DISTINCT * from <table>

Run Code Online (Sandbox Code Playgroud)

表模式

  {
    "mode": "NULLABLE",
    "name": "company_name",
    "type": "STRING"
  },
  {
    "mode": "NULLABLE",
    "name": "vat_number",
    "type": "STRING"
  },
  {
    "fields": [
      {
        "mode": "NULLABLE",
        "name": "name",
        "type": "STRING"
      }
    ],
    "mode": "REPEATED",
    "name": "industry",
    "type": "RECORD"
  }

Run Code Online (Sandbox Code Playgroud)

如何在 BigQuery 中选择具有嵌套字段的表的不同行？

google-bigquery

Jut*_*uta

lucky-day

4
推荐指数

1
解决办法

4107
查看次数

在 SparkSession 中连接到远程 Dataproc 主节点

我在 Google Cloud Dataproc 上创建了一个 3 节点（1 个主节点，2 个工作节点）Apache Spark 集群。通过 ssh 与主服务器连接时，我可以将作业提交到集群，但是我无法使其远程工作。除了AWS 上的类似问题外，我找不到任何有关如何执行此操作的文档，但这对我不起作用。

这是我正在尝试的

import pyspark
conf = pyspark.SparkConf().setAppName('Test').setMaster('spark://<master-node-ip>:7077')
sc = pyspark.SparkContext(conf=conf)

Run Code Online (Sandbox Code Playgroud)

我收到错误

19/11/13 13:33:49 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
19/11/13 13:33:53 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master <master-node-ip>:7077
org.apache.spark.SparkException: Exception thrown in awaitResult: …

Run Code Online (Sandbox Code Playgroud)

hadoop apache-spark google-cloud-dataproc

Jut*_*uta

lucky-day

4
推荐指数

1
解决办法

1111
查看次数

气流使用执行日期：'datetime'未定义

我想使用 Airflow 中的执行时间并添加一天：

'{{(execution_date + timedelta(days=1)).strftime("%Y-%m-%d")}}'

Run Code Online (Sandbox Code Playgroud)

当我执行这个时我得到

jinja2.exceptions.UndefinedError: 'timedelta' is undefined

Run Code Online (Sandbox Code Playgroud)

如何获得执行时间加一天？

python airflow

Jut*_*uta

2019 02-05

3
推荐指数

1
解决办法

3809
查看次数

标签统计

airflow ×1

apache-spark ×1

google-bigquery ×1

google-cloud-dataproc ×1

hadoop ×1

python ×1

BigQuery 嵌套字段：不能在 SELECT DISTINCT 中使用 ARRAY 类型的列单元

在 SparkSession 中连接到远程 Dataproc 主节点

气流使用执行日期：'datetime'未定义

标签 统计

小编Jut_uta的帖子

标签统计