我正在使用Core Reporting API v4获取 Google Analytics 数据。对于给定的维度和指标组合,我最多能够捕获 10,000 条记录。我的问题是,如果我的查询可以产生超过 10,000 个搜索结果,那么我如何获取所有这些记录?我浏览了文档,发现在单个请求中,我们无法通过设置 ReportRequest 对象的属性来访问超过 10,000 条记录。
ReportRequest request = new ReportRequest()
.setDateRanges(Arrays.asList(dateRange))
.setViewId(VIEW_ID)
.setDimensions(Arrays.asList(dimension))
.setMetrics(Arrays.asList(metric))
.setPageSize(10000);
Run Code Online (Sandbox Code Playgroud)
我们如何根据可以获得的搜索结果的数量在一次运行中启用多个请求。
例如:如果我的查询可以返回 35,000 条记录,那么应该有 4 个请求(10,000,10,000, 10,000 和 3,500)在内部管理。
请调查这一点并为我提供一些指导。提前致谢。
如何根据selectBigQuery 中的查询结果创建表?
例如:
create table abc as select x,y,z from mnp;
Run Code Online (Sandbox Code Playgroud)
有什么方法或解决方法可以在 BigQuery 中实现相同的目标吗?
任何线索?
我有一些复杂的 Oozie 工作流程需要从本地 Hadoop 迁移到 GCP Dataproc。工作流程由 shell 脚本、Python 脚本、Spark-Scala 作业、Sqoop 作业等组成。
我遇到了一些包含我的工作流程调度需求的潜在解决方案:
请让我知道哪种选项在性能、成本和迁移复杂性方面最有效。
hadoop google-cloud-dataproc airflow oozie-workflow google-cloud-composer
我们正在使用 Cloud Memorystore Redis 实例向我们面向互联网的关键任务应用程序添加缓存层。对 Memorystore 实例的调用总数(包括 get、set 和 key expiry 操作)约为每秒 10-15K。CPU 利用率一直在 75-80% 左右,并且预计利用率会更高。
目前,我们在标准服务层下使用 M4 容量层。
https://cloud.google.com/memorystore/docs/redis/pricing
需要澄清以下几点。
我们的应用程序确实是 CPU 密集型的,并且我们看不到任何进一步优化我们的应用程序的方法。期待一些有用的参考。
如何在Bigquery中找到子字符串?我找不到任何支持触发查询的函数,例如'Substring(Column_Name,3,7)'。有什么办法可以在Bigquery中实现相同的功能?
我正在使用 GCP 部署管理器部署虚拟机实例。有一些初始化操作应该在部署过程中执行。我已导入启动脚本并添加metadata-from-file以下示例后的属性:
https://github.com/GoogleCloudPlatform/deploymentmanager-samples/blob/master/examples/v2/metadata_from_file/jinja/config.yaml
但我没有看到这些行动得到执行。还有其他方法可以将此类脚本包含在部署计划中吗?
我正在尝试使用 Hive 的“写入目录”功能下载 Hive 查询的结果。对于某些列,我的查询返回NULL值,但在生成的文件中我可以看到它被替换为\N. 这是 Hive 的预期行为吗?我必须将生成的文件上传到 Bigquery 表。有没有办法生成NULL空值,而不是\N因为在接收文件后\N我必须进行中间处理(替换\N为NULL空字符串)。请建议。
我正在尝试设置一个 DAG 来响应 Cloud Pub/Sub 消息。我需要在 DAG 代码中添加以下导入语句:
from airflow.providers.google.cloud.operators.pubsub import (
PubSubCreateSubscriptionOperator, PubSubCreateTopicOperator, PubSubDeleteSubscriptionOperator,
PubSubDeleteTopicOperator, PubSubPublishMessageOperator,
)
from airflow.providers.google.cloud.sensors.pubsub import PubSubPullSensor
Run Code Online (Sandbox Code Playgroud)
DAG 导入失败,因为它无法解析依赖项。谁能告诉我所需的依赖项以及如何将它们引入 Cloud Composer 环境?
google-cloud-platform google-cloud-pubsub airflow google-cloud-composer
我正在对数据流批处理负载进行性能基准测试,发现与Bigquery命令行工具上的相同负载相比,负载太慢了.
文件大小约为20 MB,有数百万条记录.我尝试了不同的机器类型,并且n1-highmem-4在加载目标BQ表时加载时间为8分钟时获得了最佳的负载性能.
通过在命令行实用程序上运行BQ命令来应用相同的表加载时,处理和加载相同数量的数据几乎不需要2分钟.有关使用Dataflow作业的负载性能不佳的任何见解?如何提高性能使其与BQ命令行实用程序相媲美?