小编Bal*_*esh的帖子

使用 Core Reporting Google API v4 (Java) 显示超过 10000 行

我正在使用Core Reporting API v4获取 Google Analytics 数据。对于给定的维度和指标组合,我最多能够捕获 10,000 条记录。我的问题是,如果我的查询可以产生超过 10,000 个搜索结果,那么我如何获取所有这些记录?我浏览了文档,发现在单个请求中,我们无法通过设置 ReportRequest 对象的属性来访问超过 10,000 条记录。

ReportRequest request = new ReportRequest()
    .setDateRanges(Arrays.asList(dateRange)) 
    .setViewId(VIEW_ID)
    .setDimensions(Arrays.asList(dimension))
    .setMetrics(Arrays.asList(metric))
    .setPageSize(10000); 
Run Code Online (Sandbox Code Playgroud)

我们如何根据可以获得的搜索结果的数量在一次运行中启用多个请求。

例如:如果我的查询可以返回 35,000 条记录,那么应该有 4 个请求(10,000,10,000, 10,000 和 3,500)在内部管理。

请调查这一点并为我提供一些指导。提前致谢。

java google-analytics-api google-reporting-api

5
推荐指数
1
解决办法
3898
查看次数

在 BigQuery 中“创建表为”

如何根据selectBigQuery 中的查询结果创建表?

例如:

create table abc as select x,y,z from mnp;
Run Code Online (Sandbox Code Playgroud)

有什么方法或解决方法可以在 BigQuery 中实现相同的目标吗?

任何线索?

sql google-bigquery

5
推荐指数
1
解决办法
1万
查看次数

GCP Dataproc 集群上的工作流调度

我有一些复杂的 Oozie 工作流程需要从本地 Hadoop 迁移到 GCP Dataproc。工作流程由 shell 脚本、Python 脚本、Spark-Scala 作业、Sqoop 作业等组成。

我遇到了一些包含我的工作流程调度需求的潜在解决方案:

  1. 云作曲家
  2. 具有云计划功能的 Dataproc 工作流模板
  3. 在 Dataproc 自动扩展集群上安装 Oozie

请让我知道哪种选项在性能、成本和迁移复杂性方面最有效。

hadoop google-cloud-dataproc airflow oozie-workflow google-cloud-composer

4
推荐指数
1
解决办法
1562
查看次数

Cloud Memorystore Redis CPU 利用率高

我们正在使用 Cloud Memorystore Redis 实例向我们面向互联网的关键任务应用程序添加缓存层。对 Memorystore 实例的调用总数(包括 get、set 和 key expiry 操作)约为每秒 10-15K。CPU 利用率一直在 75-80% 左右,并且预计利用率会更高。

目前,我们在标准服务层下使用 M4 容量层。

https://cloud.google.com/memorystore/docs/redis/pricing

需要澄清以下几点。

  1. M4容量层对应多少个CPU核心?
  2. CPU 利用率超过 100% 真的很令人震惊吗?我们预计会出现任何明显的性能问题吗?
  3. 有哪些选项可以解决由较高 CPU 利用率 (>=100%) 引起的性能问题(如果有)?切换到 M5 容量层将解决高 CPU 消耗和相应问题。

我们的应用程序确实是 CPU 密集型的,并且我们看不到任何进一步优化我们的应用程序的方法。期待一些有用的参考。

redis google-cloud-platform google-cloud-memorystore

4
推荐指数
1
解决办法
3698
查看次数

在Bigquery中查找子字符串

如何在Bigquery中找到子字符串?我找不到任何支持触发查询的函数,例如'Substring(Column_Name,3,7)'。有什么办法可以在Bigquery中实现相同的功能?

sql google-bigquery

3
推荐指数
1
解决办法
8462
查看次数

GCP 部署管理器中的启动脚本

我正在使用 GCP 部署管理器部署虚拟机实例。有一些初始化操作应该在部署过程中执行。我已导入启动脚本并添加metadata-from-file以下示例后的属性: https://github.com/GoogleCloudPlatform/deploymentmanager-samples/blob/master/examples/v2/metadata_from_file/jinja/config.yaml

但我没有看到这些行动得到执行。还有其他方法可以将此类脚本包含在部署计划中吗?

google-cloud-platform google-deployment-manager

2
推荐指数
1
解决办法
2705
查看次数

将 Hive 查询结果写入文本文件时,NULL 显示为“\N”

我正在尝试使用 Hive 的“写入目录”功能下载 Hive 查询的结果。对于某些列,我的查询返回NULL值,但在生成的文件中我可以看到它被替换为\N. 这是 Hive 的预期行为吗?我必须将生成的文件上传到 Bigquery 表。有没有办法生成NULL空值,而不是\N因为在接收文件后\N我必须进行中间处理(替换\NNULL空字符串)。请建议。

null hadoop hive hiveql

1
推荐指数
1
解决办法
3789
查看次数

没有名为 providers.google.cloud.operators.pubsub 的模块:Google Cloud Composer

我正在尝试设置一个 DAG 来响应 Cloud Pub/Sub 消息。我需要在 DAG 代码中添加以下导入语句:

from airflow.providers.google.cloud.operators.pubsub import (
PubSubCreateSubscriptionOperator, PubSubCreateTopicOperator, PubSubDeleteSubscriptionOperator,
PubSubDeleteTopicOperator, PubSubPublishMessageOperator,
)
from airflow.providers.google.cloud.sensors.pubsub import PubSubPullSensor
Run Code Online (Sandbox Code Playgroud)

DAG 导入失败,因为它无法解析依赖项。谁能告诉我所需的依赖项以及如何将它们引入 Cloud Composer 环境?

google-cloud-platform google-cloud-pubsub airflow google-cloud-composer

1
推荐指数
1
解决办法
1745
查看次数

使用Apache Beam对Dataflow批量加载的性能问题

我正在对数据流批处理负载进行性能基准测试,发现与Bigquery命令行工具上的相同负载相比,负载太慢了.

文件大小约为20 MB,有数百万条记录.我尝试了不同的机器类型,并且n1-highmem-4在加载目标BQ表时加载时间为8分钟时获得了最佳的负载性能.

通过在命令行实用程序上运行BQ命令来应用相同的表加载时,处理和加载相同数量的数据几乎不需要2分钟.有关使用Dataflow作业的负载性能不佳的任何见解?如何提高性能使其与BQ命令行实用程序相媲美?

google-bigquery google-cloud-dataflow apache-beam

0
推荐指数
1
解决办法
394
查看次数