小编Sri*_*ini的帖子

如何从Spark ML Lib中的TF Vector RDD获取单词详细信息?

HashingTF在Spark中创建了Term Frequency .我已经tf.transform为每个单词使用了术语频率.

但结果以这种格式显示.

[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...]
,[termFrequencyofWord1, termFrequencyOfWord2 ....]
Run Code Online (Sandbox Code Playgroud)

例如:

(1048576,[105,3116],[1.0,2.0])
Run Code Online (Sandbox Code Playgroud)

我能够使用哈希桶获取索引tf.indexOf("word").

但是,我怎样才能使用索引得到这个词?

tf-idf apache-spark apache-spark-ml apache-spark-mllib

16
推荐指数
1
解决办法
7953
查看次数

DStream中Spark变换与地图之间的确切区别是什么?

我试图了解Spark Streaming中Spark DStream的转换.

我知道与地图相比,变换的位置非常高,但有些人可以给我一些实时的例子或明确的例子,可以区分变换和地图.

apache-spark spark-streaming

11
推荐指数
2
解决办法
1万
查看次数

spark的shuffle read和shuffle write有什么区别?

我需要运行一个包含大量数据的spark程序.我正在尝试优化火花程序并通过spark UI并尝试减少Shuffle部分.

提到了几个组件,shuffle read和shuffle write.我可以根据他们的术语理解差异,但我想了解它们的确切含义以及哪一个spark的shuffle读/写会降低性能?

我在互联网上搜索过,但找不到有关它们的详细信息,所以想知道是否有人可以在这里解释一下.

apache-spark apache-spark-sql

11
推荐指数
2
解决办法
8124
查看次数

如何让kafka消费者从上次消费的偏移中读取,而不是从一开始就读取

我是kafka的新手并试图了解是否有办法从上次消耗的偏移中读取消息,但不是从头开始.

我正在写一个案例,所以我的意图不会偏离.

Eg:
1) I produced 5 messages at 7:00 PM and console consumer consumed those.
2) I stopped consumer at 7:10 PM
3) I produced 10 message at 7:20 PM. No consumer had read those messages.
4) Now, i have started console consumer at 7:30 PM, without from-beginning.
5) Now, it Will read the messages produced after it has started. Not the earlier ones, which were produced at 7.20 PM
Run Code Online (Sandbox Code Playgroud)

有没有办法从最后消耗的偏移量中获取消息.?

apache-kafka kafka-consumer-api

10
推荐指数
3
解决办法
1万
查看次数

如何在Cloudformation中引用派生变量

我正在寻找关于cloudformation的小帮助,无法从文档中找到帮助,或者可能没有以正确的方式搜索问题.

这是个问题.

我从映射获取环境的可用区域如下.

"AvailabilityZone": {
"Fn::Select": [
    "1",
    {
        "Fn::FindInMap": [
            "Environment",
            {
                "Ref": "EnvType"
            },
            "AvailabilityZones"
        ]
    }
]
Run Code Online (Sandbox Code Playgroud)

}

我需要在我的卷命名约定中使用AZ名称.如何再次引用派生变量"AvailabilityZone".

目前我正在这样做.

    {
    "Key": "Name",
    "Value": {
        "Fn::Join": [
            "-",
            [
                {
                    "Ref": "NamePrefix"
                },
                {
                    "Ref": "EnvType"
                },
                "myconstant",
                {
                    "Fn::Select": [
                        "2",
                        {
                            "Fn::Split": [
                                "-",
                                {
                                    "Fn::Select": [
                                        "1",
                                        {
                                            "Fn::FindInMap": [
                                                "Environment",
                                                {
                                                    "Ref": "EnvType"
                                                },
                                                "AvailabilityZones"
                                            ]
                                        }
                                    ]
                                }
                            ]
                        }
                    ]
                }
            ]
        ]
    }
}
Run Code Online (Sandbox Code Playgroud)

我两次做同样的代码.我如何在这里重复使用派生变量.

aws-cloudformation

9
推荐指数
1
解决办法
1万
查看次数

如何使用Java中的Grok进行解析..有没有可用的示例.?

我看到Grok在解析日志数据时非常强大和致命.我想在我们的应用程序中使用Grok进行日志解析,这是在java中.我如何从Java连接/使用Grok.

parsing logstash-grok

6
推荐指数
1
解决办法
5191
查看次数

是否会出现Spark RDD无法满足不变性的任何情况.

Spark RDD以不可变,容错和弹性方式构建.

RDD是否满足所有情况下的不变性?或者是否有任何情况,无论是在Streaming还是Core中,RDD可能无法满足不变性?

apache-spark spark-streaming rdd

6
推荐指数
1
解决办法
342
查看次数

每个项目的 DynamoDB 生存时间

我需要使用不同的实时配置使项目过期。在某些情况下,表中的项目也不会过期。在 Cassandra 中,我们可以在记录级别写入时设置生存时间。在 DynamoDB 中,我只能在表级别看到 TimeToLive 配置(我也可能错了。)但不能在项目级别看到。

  1. 有没有办法在执行 putItem 或
  2. 在对整个系统影响最小的情况下删除记录的最佳做法是什么?

如果不可能在项目级别设置 TTL,我想回到第二个选项。

amazon-dynamodb aws-sdk amazon-dynamodb-data-modeling

4
推荐指数
1
解决办法
4178
查看次数