小编Sri*_*ini的帖子

如何从Spark ML Lib中的TF Vector RDD获取单词详细信息？

我HashingTF在Spark中创建了Term Frequency .我已经tf.transform为每个单词使用了术语频率.

但结果以这种格式显示.

[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...]
,[termFrequencyofWord1, termFrequencyOfWord2 ....]

Run Code Online (Sandbox Code Playgroud)

例如:

(1048576,[105,3116],[1.0,2.0])

Run Code Online (Sandbox Code Playgroud)

我能够使用哈希桶获取索引tf.indexOf("word").

但是,我怎样才能使用索引得到这个词？

tf-idf apache-spark apache-spark-ml apache-spark-mllib

Sri*_*ini

2017 12-09

16
推荐指数

1
解决办法

7953
查看次数

DStream中Spark变换与地图之间的确切区别是什么？

我试图了解Spark Streaming中Spark DStream的转换.

我知道与地图相比,变换的位置非常高,但有些人可以给我一些实时的例子或明确的例子,可以区分变换和地图.

apache-spark spark-streaming

Sri*_*ini

lucky-day

11
推荐指数

2
解决办法

1万
查看次数

spark的shuffle read和shuffle write有什么区别？

我需要运行一个包含大量数据的spark程序.我正在尝试优化火花程序并通过spark UI并尝试减少Shuffle部分.

提到了几个组件,shuffle read和shuffle write.我可以根据他们的术语理解差异,但我想了解它们的确切含义以及哪一个spark的shuffle读/写会降低性能？

我在互联网上搜索过,但找不到有关它们的详细信息,所以想知道是否有人可以在这里解释一下.

apache-spark apache-spark-sql

Sri*_*ini

2016 03-06

11
推荐指数

2
解决办法

8124
查看次数

如何让kafka消费者从上次消费的偏移中读取,而不是从一开始就读取

我是kafka的新手并试图了解是否有办法从上次消耗的偏移中读取消息,但不是从头开始.

我正在写一个案例,所以我的意图不会偏离.

Eg:
1) I produced 5 messages at 7:00 PM and console consumer consumed those.
2) I stopped consumer at 7:10 PM
3) I produced 10 message at 7:20 PM. No consumer had read those messages.
4) Now, i have started console consumer at 7:30 PM, without from-beginning.
5) Now, it Will read the messages produced after it has started. Not the earlier ones, which were produced at 7.20 PM

Run Code Online (Sandbox Code Playgroud)

有没有办法从最后消耗的偏移量中获取消息.？

apache-kafka kafka-consumer-api

Sri*_*ini

2015 11-13

10
推荐指数

3
解决办法

1万
查看次数

如何在Cloudformation中引用派生变量

我正在寻找关于cloudformation的小帮助,无法从文档中找到帮助,或者可能没有以正确的方式搜索问题.

这是个问题.

我从映射获取环境的可用区域如下.

"AvailabilityZone": {
"Fn::Select": [
    "1",
    {
        "Fn::FindInMap": [
            "Environment",
            {
                "Ref": "EnvType"
            },
            "AvailabilityZones"
        ]
    }
]

Run Code Online (Sandbox Code Playgroud)

}

我需要在我的卷命名约定中使用AZ名称.如何再次引用派生变量"AvailabilityZone".

目前我正在这样做.

    {
    "Key": "Name",
    "Value": {
        "Fn::Join": [
            "-",
            [
                {
                    "Ref": "NamePrefix"
                },
                {
                    "Ref": "EnvType"
                },
                "myconstant",
                {
                    "Fn::Select": [
                        "2",
                        {
                            "Fn::Split": [
                                "-",
                                {
                                    "Fn::Select": [
                                        "1",
                                        {
                                            "Fn::FindInMap": [
                                                "Environment",
                                                {
                                                    "Ref": "EnvType"
                                                },
                                                "AvailabilityZones"
                                            ]
                                        }
                                    ]
                                }
                            ]
                        }
                    ]
                }
            ]
        ]
    }
}

Run Code Online (Sandbox Code Playgroud)

我两次做同样的代码.我如何在这里重复使用派生变量.

aws-cloudformation

Sri*_*ini

2017 05-12

9
推荐指数

1
解决办法

1万
查看次数