小编Ros*_*ndo的帖子

大表与大查询用于时间序列数据

我希望最终确定Big table vs Big Query以获取我的时间序列数据.

我通过了https://cloud.google.com/bigtable/docs/schema-design-time-series

这是用于存储Omniture数据,其中包含网站访问者密钥(一些Long密钥),他的cookie id(一些Long密钥),他的IP的时间戳系列数据web命中,cookie等信息

什么可以用作Big table的rowkey?我不能使用时间戳或CookieId作为前缀,因为我从最佳实践中学习.但是应该有一个标识符(最好是字母?),然后是时间序列后缀.数据量为5亿,今天在SQL表中存储了52列.我认为数据可能会根据OLTP处理进行更新.但是稍后会在时间序列数据上查询该表以进行类似的OLAP处理.

a)Big table在这里是最好的选择,还是我应该使用Big Query,因为稍后根据时间序列数据查询会对我有所帮助?b)如果使用Big table,那么最好的行键是什么,因为timeseries是我看到的唯一意义过滤器.我相信,使用表中的其他字段,如visitorkey,cookieid ID(Long ids)作为带时间戳的前缀仍然会导致整个数据填满Bigtable中的1个节点,而不是分发.

请告诉我.

bigtable google-bigquery google-cloud-bigtable

4
推荐指数
1
解决办法
1712
查看次数

Bigtable行键场景避免热点?

Bigtable行键场景避免热点?

一家公司需要您在 Google Bigtable 中创建一个架构,以便对过去 2 年的记录进行历史分析。传入的每条记录每 15 分钟发送一次,并包含设备的唯一标识符和数据记录。最常见的查询是针对给定设备在给定日期的所有数据。您应该使用哪种模式?

  • A.行键:date#device_id,列数据:data_point
  • B.行键:日期,列数据:device_id,data_point
  • C.行键:device_id,列数据:日期,data_point
  • D、行键:data_point,列数据:device_id、日期
  • E.行键:date#data_point,列数据:device_id

上面最好的选择是什么?

bigtable google-cloud-bigtable

3
推荐指数
1
解决办法
3243
查看次数

如何使用 Apache Beam Direct 运行程序通过 GOOGLE_APPLICATION_CREDENTIALS 进行身份验证

如何使用 Apache Beam Direct 运行程序通过 GOOGLE_APPLICATION_CREDENTIALS 进行身份验证?我不想使用 gcloud 帐户进行身份验证。我有一个服务帐户(json),我将其设置为系统变量。如何让 Apache Beam 程序(作为 DirectRunner 运行)使用 GOOGLE_APPLICATION_CREDENTIALS 进行身份验证?

我的用例是访问 Apache Beam 程序中的 GCP Pub/Sub 资源,因此需要进行身份验证

google-cloud-dataflow apache-beam

2
推荐指数
1
解决办法
4257
查看次数

Amazon EMR 与 Amazon Redshift

对于大多数用例,可以使用 Amazon EMR 对流数据或有界数据(例如来自 Amazon S3)进行 Spark 转换,然后可以使用转换后的数据再次将数据写入 S3。

还可以在 Amazon Redshift 中使用来自 S3 的不同数据加载到不同的 Redshift 表中,然后将不同的 Redshift 表中的数据加载到最终表中来实现转换。(现在有了 Redshift 频谱,我们也可以直接从 S3 中选择和转换数据。)

话虽如此,我看到转换可以在 EMR 和 Redshift 中完成,Redshift 加载和转换可以用更少的开发时间完成。

那么,EMR 是否应该用于主要涉及流/无界数据的用例?EMR 更可取的其他用例是什么(我知道 Spark 也提供其他核心、sql、ml 库),但只是为了实现转换(涉及连接/减速器),我没有看到除此之外的其他用例在 EMR 中进行流式传输,此时也可以在 Redshift 中实现转换。

请提供何时使用 EMR 转换与 Redshift 转换的用例。

amazon-web-services amazon-emr amazon-redshift amazon-redshift-spectrum

2
推荐指数
1
解决办法
2556
查看次数

BigQueryIO Read vs fromQuery

在Dataflow/Apache Beam程序中说,我正在尝试读取具有指数级增长数据的表.我想提高读取的性能.

BigQueryIO.Read.from("projectid:dataset.tablename")
Run Code Online (Sandbox Code Playgroud)

要么

BigQueryIO.Read.fromQuery("SELECT A, B FROM [projectid:dataset.tablename]")
Run Code Online (Sandbox Code Playgroud)

如果我只选择表中所需的列,而不是上面的整个表,那么我的读取性能会提高吗?

我知道选择几列会降低成本.但是想知道上面的读取性能.

dataflow google-bigquery google-cloud-dataflow

0
推荐指数
1
解决办法
326
查看次数

Apache Beam 2.12.0 是否支持 Java 11?

Apache Beam 2.12.0 是否支持 Java 11,还是我现在应该继续使用稳定的 Java 8 SDK?

我看到该站点根据文档推荐使用 Python 3.5 和 Beam 2.12.0,与其他更高的 Python 版本相比。这个时候它和 Java 11 有多少可比性。因此,与 Apache Beam 2.12.0 一起使用的稳定版本仍然是 Java 8。在 Java 11 中使用 Beam 2.12.0 时,我遇到的构建问题很少。

google-cloud-dataflow apache-beam

0
推荐指数
1
解决办法
1724
查看次数