小编Ros*_*ndo的帖子

大表与大查询用于时间序列数据

我希望最终确定Big table vs Big Query以获取我的时间序列数据.

我通过了https://cloud.google.com/bigtable/docs/schema-design-time-series

这是用于存储Omniture数据,其中包含网站访问者密钥(一些Long密钥),他的cookie id(一些Long密钥),他的IP的时间戳系列数据web命中,cookie等信息

什么可以用作Big table的rowkey？我不能使用时间戳或CookieId作为前缀,因为我从最佳实践中学习.但是应该有一个标识符(最好是字母？),然后是时间序列后缀.数据量为5亿,今天在SQL表中存储了52列.我认为数据可能会根据OLTP处理进行更新.但是稍后会在时间序列数据上查询该表以进行类似的OLAP处理.

a)Big table在这里是最好的选择,还是我应该使用Big Query,因为稍后根据时间序列数据查询会对我有所帮助？b)如果使用Big table,那么最好的行键是什么,因为timeseries是我看到的唯一意义过滤器.我相信,使用表中的其他字段,如visitorkey,cookieid ID(Long ids)作为带时间戳的前缀仍然会导致整个数据填满Bigtable中的1个节点,而不是分发.

请告诉我.

bigtable google-bigquery google-cloud-bigtable

Ros*_*ndo

lucky-day

4
推荐指数

1
解决办法

1712
查看次数

Bigtable行键场景避免热点？

一家公司需要您在 Google Bigtable 中创建一个架构，以便对过去 2 年的记录进行历史分析。传入的每条记录每 15 分钟发送一次，并包含设备的唯一标识符和数据记录。最常见的查询是针对给定设备在给定日期的所有数据。您应该使用哪种模式？

A.行键：date#device_id，列数据：data_point
B.行键：日期，列数据：device_id，data_point
C.行键：device_id，列数据：日期，data_point
D、行键：data_point，列数据：device_id、日期
E.行键：date#data_point，列数据：device_id

上面最好的选择是什么？

bigtable google-cloud-bigtable

Ros*_*ndo

2018 12-23

3
推荐指数

1
解决办法

3243
查看次数

如何使用 Apache Beam Direct 运行程序通过 GOOGLE_APPLICATION_CREDENTIALS 进行身份验证

如何使用 Apache Beam Direct 运行程序通过 GOOGLE_APPLICATION_CREDENTIALS 进行身份验证？我不想使用 gcloud 帐户进行身份验证。我有一个服务帐户（json），我将其设置为系统变量。如何让 Apache Beam 程序（作为 DirectRunner 运行）使用 GOOGLE_APPLICATION_CREDENTIALS 进行身份验证？

我的用例是访问 Apache Beam 程序中的 GCP Pub/Sub 资源，因此需要进行身份验证

google-cloud-dataflow apache-beam

Ros*_*ndo

2018 09-22

2
推荐指数

1
解决办法

4257
查看次数

Amazon EMR 与 Amazon Redshift

对于大多数用例，可以使用 Amazon EMR 对流数据或有界数据（例如来自 Amazon S3）进行 Spark 转换，然后可以使用转换后的数据再次将数据写入 S3。

还可以在 Amazon Redshift 中使用来自 S3 的不同数据加载到不同的 Redshift 表中，然后将不同的 Redshift 表中的数据加载到最终表中来实现转换。（现在有了 Redshift 频谱，我们也可以直接从 S3 中选择和转换数据。）

话虽如此，我看到转换可以在 EMR 和 Redshift 中完成，Redshift 加载和转换可以用更少的开发时间完成。

那么，EMR 是否应该用于主要涉及流/无界数据的用例？EMR 更可取的其他用例是什么（我知道 Spark 也提供其他核心、sql、ml 库），但只是为了实现转换（涉及连接/减速器），我没有看到除此之外的其他用例在 EMR 中进行流式传输，此时也可以在 Redshift 中实现转换。

请提供何时使用 EMR 转换与 Redshift 转换的用例。

amazon-web-services amazon-emr amazon-redshift amazon-redshift-spectrum

Ros*_*ndo

2019 07-24

2
推荐指数

1
解决办法

2556
查看次数

BigQueryIO Read vs fromQuery

在Dataflow/Apache Beam程序中说,我正在尝试读取具有指数级增长数据的表.我想提高读取的性能.

BigQueryIO.Read.from("projectid:dataset.tablename")

Run Code Online (Sandbox Code Playgroud)

要么

BigQueryIO.Read.fromQuery("SELECT A, B FROM [projectid:dataset.tablename]")

Run Code Online (Sandbox Code Playgroud)

如果我只选择表中所需的列,而不是上面的整个表,那么我的读取性能会提高吗？

我知道选择几列会降低成本.但是想知道上面的读取性能.

dataflow google-bigquery google-cloud-dataflow

Ros*_*ndo

lucky-day

0
推荐指数

1
解决办法

326
查看次数

Apache Beam 2.12.0 是否支持 Java 11？

Apache Beam 2.12.0 是否支持 Java 11，还是我现在应该继续使用稳定的 Java 8 SDK？

我看到该站点根据文档推荐使用 Python 3.5 和 Beam 2.12.0，与其他更高的 Python 版本相比。这个时候它和 Java 11 有多少可比性。因此，与 Apache Beam 2.12.0 一起使用的稳定版本仍然是 Java 8。在 Java 11 中使用 Beam 2.12.0 时，我遇到的构建问题很少。

google-cloud-dataflow apache-beam

Ros*_*ndo

lucky-day

0
推荐指数

1
解决办法

1724
查看次数